来源
- 原始链接:https://www.youtube.com/watch?v=OXMMN-XbxwA
- 来源类型:视频逐字稿
- 来源标题:从研究到现实:把前沿 ML 研究带入生产
从研究到现实:把前沿 ML 研究带入生产高亮
文本来源是 AI Engineer 频道视频《从研究到现实:把前沿 ML 研究带入生产》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。
一、评估、反馈与故障闭环
背景
这组高亮抓住《从研究到现实:把前沿 ML 研究带入生产》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。
我们基本上把它看作一个系统与流程问题。我想聚焦三个主要方向,你可以用它们提升团队把研究带入生产的速度。
比如用 computer vision 扫描手绘平面图,并把它们解析到我们的内部数据模型中;用 reasoning agent 带着用户完成这些 agentic experience;我们有定制 transformer,也会用 diffusion model 做图像生成。基本上,因为产品本身具有多学科性质,AI/ML 里很多方向我们都会用到。
但我们的看法是,这里有一层 tooling layer,甚至还有一个有趣的 CLI,不过这些东西都是为了支持 ML engineer 把这些我们在生产中服务的 microservice 打包起来。
兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。
二、上下文、记忆与检索边界
背景
这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。
我们处在建筑和住宅建造领域,所以要说明这些特定领域里的内容:有哪些新的数据表示方式?也许是 party diagram,也许是用 graph 表示一栋住宅中的 circulation graph,也许是 embedding model 或 latent space representation。
作者谈到软件工程团队在成长和规模化时,在构建软件之前写技术设计文档、RFC,或者不管你叫它什么,写规格说明,对于团队对齐有多重要。我们对所有研究原型也要求一份非常类似的文档,叫研究原型分类文档。
在加入这个项目之前,他需要知道哪些特定术语和数据表示方式?第二部分是梳理业务目标。
兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。
三、工具、系统与工程约束
背景
这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。
这就引出了我们面对的问题:在把前沿研究推进到生产的挑战中,我们需要开始和软件工程师协作,比如 platform engineer、infrastructure engineer、back-end engineer。
如果这里存在模糊性,你可能需要花时间重新审视这个流程。第二步是你的代码 repository。
我们把这件事看作一个设计问题:需要弄清楚如何把一个大型的研究 monolithic prototype 切分开。这里有几张平台级 agent feature 的图,我们认真研究了应该沿哪些轴线切分这些项目,以及 dependency graph 会是什么样。
兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。
四、人类判断、组织与协作方式
背景
这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。
我们非常喜欢 Graphite,因为它支持 asynchronous review。也就是说,当领域专家还在 review 另一个 PR 时,我可以继续在上层的某个 PR 上工作。
在 Higharc,labs 团队基本上就是我们的研究与开发部门,团队里有 machine learning researcher,负责探索 AI/ML 的前沿,并寻找把这些能力应用到住宅建造中的方法。
回到我们可以拉动的三个杠杆,第一个就是研究项目分类文档。第二个我想讲的是我们如何组织代码,以及如何服务已有功能。
兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。
五、Prompt、规格与行为设计
背景
这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。
它可能会向 foundation model 发起外部 LLM call,也可能需要在 CI/CD 中拉取我们自己的 machine learning model weight。
需要找哪些 subject matter expert 来 review 并 productionize 这项研究,这一点是否清楚?如果你在这里遇到问题,它很可能指向上游问题:要么是研究协调和交接方式出了问题,要么是承载它的 code base 存在问题。
收尾时,我想重新回到这三个重点方向,你可以用它们评估团队把研究带入生产的效果。
兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。
整体判断
这篇内容最值得保留的是它把《从研究到现实:把前沿 ML 研究带入生产》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。