来源

原始链接：https://www.youtube.com/watch?v=whue9_YquGA
来源类型：视频逐字稿
来源标题：构建一个自主工程组织

构建一个自主工程组织高亮

文本来源是 AI Engineer 频道视频《构建一个自主工程组织》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《构建一个自主工程组织》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

在组建 AI Champions 时，我确保涵盖了 Block 工程的各个角落：Square、Cash App、Afterpay、Tidal，前端、后端、移动端、数据、基础设施，大大小小各种规模的代码库，包括那些庞大复杂的 legacy mono repo、小型服务、移动应用。这种多样性让我们能够在差异很大的工程实践中压力测试各类模式，迅速看清什么方案真正可以规模化。

所以我们没有强推一刀切的解决方案，而是让每个 champion 摸索出适合自己代码库的方式，然后形状和规模类似的团队自然而然地聚拢到相同的工具和模式上。工程师们很喜欢这种方式，我们让他们自主选择适合自己代码库的方案，而不是自上而下强制推行一套做法。

我需要愿意投入至少 30% 时间用于 AI 使能的工程师，需要那些不会因为 AI 的不确定性而放弃的人，因为它经常开箱就出问题。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

我手里有数据，包括 metrics 和 token 账单，所以我知道工程团队确实在用 AI；但他说得也没错，功能就是没有更快地到达用户手上。于是我开始深挖这个问题。

这意味着工程师需要把 agent 当成工程流程的核心成员，不只是偶尔让 AI 帮写几行代码，而是真正与 agent 协作：拆解问题、委派工作、审查和验证成果。我们希望他们把”指挥 agent 干活”作为默认的工作方式。

我们的 agentic coding 之旅起步很早，甚至在 LLM 支持工具调用之前，我们就已经在内部构建 Goose，也就是我们的内部 coding agent。我们与 Anthropic 合作，担任 MCP 初版发布的设计合作伙伴，Goose 也成为了 MCP client 的参考实现。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

这些流程之所以顺畅，是因为工程师不需要学习新的 skill，champions 已经打好了基础，agent 能够在这些代码库里很好地运作，而这一切运转良好，是因为委派工作这件事和人们原有的工作方式是自然契合的。

我们在所有代码库上启用了 Codex，还创建了一个自动修复循环：如果 Codex 发现了问题，另一个 agent 会自动修复这些问题并提交到 PR。这样，人们就不会再抱怨不想审查 bot 写的粗糙 PR 了，等他们收到的时候，PR 已经相当整洁了。

事实上，这已经不仅限于工程师了，公司任何人都可以在 Slack 里唤起 Build-A-Bot，让它修复一个 bug 或实现一个新功能，甚至不需要 GitHub 权限。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

这件事没有任何 playbook，我知道因为我去翻过大家的博客，期待有人已经搞定了这个问题，结果只看到一堆”我们也是摸石头过河”的帖子。所以我也一样。

所以开发者还不够信任 agent，不愿意把工作委派给它。因此我们聚焦的第一件事，是让我们的代码库 AI 就绪。

于是包括许多 AI Champions 在内的一小批工程师开始构建我们自己的 orchestrator 来协调所有这些 agent，这就是 Builder Bot。我们需要 Builder Bot 来带我们进入自主工程组织的境界。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

第五阶段是最终 Boss：工程师将完整任务委派给 agent，agent 能够产出可交付的成果，无需人类全程引导。上半年结束时，我们大多数工程师处于第一到第二阶段之间。

这个模型衡量工程师与 AI agent 的关系，包括他们如何思考、委派和编排。去年第三季度我已经有了这个模型的雏形，Steve Yegge 的 Gastown 文章帮助我将其重构为更完善的版本。

我们意识到，要构建接近自主工程组织的东西，agent 需要理解所有内容的位置和依赖关系。于是我们基于 25000 个代码库的全貌，构建了一个公司级的世界模型，这是一个机器可读的视图，记录了每一个 service 以及它们之间的所有连接。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《构建一个自主工程组织》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。