来源
- 原始链接:https://www.youtube.com/watch?v=whue9_YquGA
- 来源类型:视频逐字稿
- 来源标题:构建一个自主工程组织
构建一个自主工程组织高亮
文本来源是 AI Engineer 频道视频《构建一个自主工程组织》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。
一、评估、反馈与故障闭环
背景
这组高亮抓住《构建一个自主工程组织》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。
在组建 AI Champions 时,我确保涵盖了 Block 工程的各个角落:Square、Cash App、Afterpay、Tidal,前端、后端、移动端、数据、基础设施,大大小小各种规模的代码库,包括那些庞大复杂的 legacy mono repo、小型服务、移动应用。这种多样性让我们能够在差异很大的工程实践中压力测试各类模式,迅速看清什么方案真正可以规模化。
所以我们没有强推一刀切的解决方案,而是让每个 champion 摸索出适合自己代码库的方式,然后形状和规模类似的团队自然而然地聚拢到相同的工具和模式上。工程师们很喜欢这种方式,我们让他们自主选择适合自己代码库的方案,而不是自上而下强制推行一套做法。
我需要愿意投入至少 30% 时间用于 AI 使能的工程师,需要那些不会因为 AI 的不确定性而放弃的人,因为它经常开箱就出问题。
兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。
二、上下文、记忆与检索边界
背景
这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。
我手里有数据,包括 metrics 和 token 账单,所以我知道工程团队确实在用 AI;但他说得也没错,功能就是没有更快地到达用户手上。于是我开始深挖这个问题。
这意味着工程师需要把 agent 当成工程流程的核心成员,不只是偶尔让 AI 帮写几行代码,而是真正与 agent 协作:拆解问题、委派工作、审查和验证成果。我们希望他们把”指挥 agent 干活”作为默认的工作方式。
我们的 agentic coding 之旅起步很早,甚至在 LLM 支持工具调用之前,我们就已经在内部构建 Goose,也就是我们的内部 coding agent。我们与 Anthropic 合作,担任 MCP 初版发布的设计合作伙伴,Goose 也成为了 MCP client 的参考实现。
兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。
三、工具、系统与工程约束
背景
这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。
这些流程之所以顺畅,是因为工程师不需要学习新的 skill,champions 已经打好了基础,agent 能够在这些代码库里很好地运作,而这一切运转良好,是因为委派工作这件事和人们原有的工作方式是自然契合的。
我们在所有代码库上启用了 Codex,还创建了一个自动修复循环:如果 Codex 发现了问题,另一个 agent 会自动修复这些问题并提交到 PR。这样,人们就不会再抱怨不想审查 bot 写的粗糙 PR 了,等他们收到的时候,PR 已经相当整洁了。
事实上,这已经不仅限于工程师了,公司任何人都可以在 Slack 里唤起 Build-A-Bot,让它修复一个 bug 或实现一个新功能,甚至不需要 GitHub 权限。
兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。
四、人类判断、组织与协作方式
背景
这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。
这件事没有任何 playbook,我知道因为我去翻过大家的博客,期待有人已经搞定了这个问题,结果只看到一堆”我们也是摸石头过河”的帖子。所以我也一样。
所以开发者还不够信任 agent,不愿意把工作委派给它。因此我们聚焦的第一件事,是让我们的代码库 AI 就绪。
于是包括许多 AI Champions 在内的一小批工程师开始构建我们自己的 orchestrator 来协调所有这些 agent,这就是 Builder Bot。我们需要 Builder Bot 来带我们进入自主工程组织的境界。
兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。
五、Prompt、规格与行为设计
背景
这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。
第五阶段是最终 Boss:工程师将完整任务委派给 agent,agent 能够产出可交付的成果,无需人类全程引导。上半年结束时,我们大多数工程师处于第一到第二阶段之间。
这个模型衡量工程师与 AI agent 的关系,包括他们如何思考、委派和编排。去年第三季度我已经有了这个模型的雏形,Steve Yegge 的 Gastown 文章帮助我将其重构为更完善的版本。
我们意识到,要构建接近自主工程组织的东西,agent 需要理解所有内容的位置和依赖关系。于是我们基于 25000 个代码库的全貌,构建了一个公司级的世界模型,这是一个机器可读的视图,记录了每一个 service 以及它们之间的所有连接。
兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。
整体判断
这篇内容最值得保留的是它把《构建一个自主工程组织》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。