异步 Agent 时代：从本地补全到后台编码工厂

来源

原始链接：https://www.latent.space/p/cognition
来源类型：网页正文与访谈逐字稿
来源标题：The Age of Async Agents — Cognition’s Walden Yan & OpenInspect’s Cole Murray

【AI 编程的重心从写代码转向建设软件工厂】

背景：这组摘录给出了全文最重要的演化框架：AI coding 先是补全工具，再是本地 Agent，下一阶段是能在后台独立推进任务的异步 Agent。

第一波 AI 编程工具让开发者更快，但开发流程仍被本地 IDE 限制：人在旁边看模型、接收或拒绝修改、一次交互推进一点。第二波是本地 Agent，可以在多个终端并发工作。现在进入异步 Agent 时代，重点变成通过 Agent 编排来驱动端到端开发。

AI 编程工具的目标不再只是帮人写代码，而是帮开发者建设生产软件的工厂。这个工厂由一组像队友一样协作的 Agent 组成：人给方向，给工具，最后审查它们的工作。

兴趣匹配度高。它直接改变问题框架：未来的关键技能不是让模型更会补全，而是设计任务、环境、工具、权限、记忆和验收回路。

【后台 Agent 的及格线是从规格说明走到可审查 PR】

背景：Cole 把 2025 年底的模型能力变化描述为一个工作流拐点。重点不是某个模型多聪明，而是它让新的交付闭环开始可用。

2025 年 12 月前后，模型能力到了一个新阶段：我们开始从手把手带着模型做事，转向让模型更自主地推进。只要规格说明足够好，系统就能以很小摩擦从需求走到完成的 Pull Request。这个范式本身改变了我们和 Agent 互动的方式，也让后台 Agent 变得实际。

随着模型变聪明，Cognition 发现 Devin 中一些原本必要的组件可以被移除。越来越多团队开始认真讨论：是否还需要人在 IDE 里盯着模型，还是可以把任务交到云端执行。

兴趣匹配度高。这里的判断标准很清楚：可用的 coding agent 不是能生成代码片段，而是能把明确规格推进到可审查、可测试、可合并的工程产物。

【关键架构分叉：把大脑和机器分开】

背景：后台 Agent 的第一性问题是它在哪里运行、拿到什么权限、如何处理状态。访谈里把这件事压缩成 harness in the box 和 out of the box 的取舍。

后台 Agent 系统首先要决定 Agent 实际在哪里运行。把 Agent 放在沙盒里更简单，状态集中，但安全代价更高，因为密钥往往也要进入沙盒。把 Agent 放在沙盒外，则让大脑运行在控制平面，沙盒只作为手来执行工具调用。这种架构更复杂，但安全边界更清晰。

Devin 从一开始就选择把大脑和机器分开。机器上只放用户允许 Agent 使用的最小权限密钥；大脑不从机器侧暴露出来。这样即使用户或 Agent 能在机器里自由操作，也不必把最敏感的控制部分暴露出去。

兴趣匹配度高。它把 Agent 安全从抽象原则落到架构边界：控制平面、执行环境、密钥范围、状态管理必须分开设计。

【真正难的不是调用工具，而是让仓库环境对 Agent 可运行】

背景：很多人低估 repo setup。模型能读代码是一回事，能在真实环境里启动、测试、验证变更是另一回事。

让 Agent 真正工作，难点不是只给它代码，而是让它的工作环境持续保持可运行：依赖、凭证、服务、应用启动和测试都要对齐。很多团队的开发环境靠口口相传，比如找某个人拿密钥，这对 Agent 完全不可扩展。

Docker 适合跑基础设施，但未必适合承载完整 Agent 执行环境。真实应用本身可能就依赖 Docker，再套一层会很别扭。完整虚拟机能支持更真实的应用运行、点击交互、录屏验证，甚至支持 Android、macOS、Windows 这类平台相关开发。

兴趣匹配度高。这条对企业落地尤其关键：Agent 的上限经常受制于工程卫生，而不是模型能力。可复现开发环境、最小权限密钥、快照恢复、真实 VM 都是生产级 Agent infra 的一部分。

【测试不是 computer use，而是代码库上下文驱动的验证编排】

背景：访谈里一个很有价值的反常识点是：测试的难点不在于 AI 会不会点按钮，而在于它能否理解并编排一个复杂系统。

人们谈 AI 测试应用时，容易过度关注 computer use：模型能不能识别按钮、发出正确坐标。但真正困难的是测试本身。一个变更可能横跨前端、后端和深层服务；系统必须知道如何用正确版本启动这些服务，如何触发特定功能，是否需要管理员权限、特性开关，甚至是否需要两个会话互相配合。

这些测试需要大量代码库上下文和编排能力。有些情况下，没有任何一个前沿模型能独立完成端到端测试，系统需要编排多个前沿模型一起解决。

兴趣匹配度高。它把验证从 UI 自动化拉回工程系统：可靠交付靠的是运行环境、触发路径、测试证据和验收标准，而不是单纯让模型操作屏幕。

【MCP 只是连接层，一等集成才决定 Agent 能不能进入公司】

背景：这组摘录讨论企业落地。工具协议能让 Agent 连接系统，但关键工作流经常需要自己做产品级集成。

后台 Agent 接入公司系统后才会产生跃迁：只读生产数据库、日志、内部知识库、Slack、GitHub 等都很重要。但接上工具只是开始，访问控制、合规和协作体验会变成新的问题。

给 Agent 一个 Slack MCP，让它能发消息，并不等于把它变成 Slack 里的同事。真正好用的 Slack 集成需要 webhook 回流、自然回复、避免刷屏、适配团队协作习惯。越是关键路径，越值得自己掌控和优化，而不是完全依赖现成通用接口。

兴趣匹配度高。它非常贴近 Hermes/MCP 的产品判断：协议解决可连接性，一等体验解决可用性。Agent 系统最终会在高频协作入口上重新做产品设计。

【记忆系统的难点是生成、检索、更新和遗忘，不是多存一点文本】

背景：Cognition 和 OpenInspect 都把 memory 视为未解决问题。这里的价值在于它把记忆拆成了可评估的工程问题。

记忆难在两件事：怎么生成，以及怎么检索。系统不能因为用户某一次要求开 draft PR，就永远记成所有 PR 都要是 draft；但它可以逐渐学到某个用户通常喜欢怎样处理 PR。拥有成千上万条记忆之后，系统还要在正确时间取出正确内容，同时避免把上下文塞满无用信息。

Devin 的一个方向是让记忆更像文件系统，让 Agent 可以自己导航。另一个方向是常驻 Agent：它维护自己的 memory.md，像某个产品或 issue 集合的永久 PM，记录优先级、负责人、后续动作，并在需要时主动提醒或创建任务。

兴趣匹配度高。它和你最近的多仓库 Agent、dmux、文件式通信、长期上下文管理是同一条线：长期可用的 Agent 需要可编辑、可检索、可遗忘的工作记忆，而不是简单的聊天历史堆积。

【多 Agent 的实用形态不是群聊，而是经理拆任务、子 Agent 隔离执行】

背景：这组摘录修正了对 multi-agent 的想象。真正可用的多 Agent 更像任务分解和隔离执行，而不是一群 Agent 在频道里互相聊天。

很多人期待 swarm 式的 Agent 世界：多个 Agent 到处互相发消息、互相协作。但实际日常最有用的形态仍然是一个上层 Agent 拆分工作，让其他 Agent 在相对隔离的环境里执行。每个子 Agent 有自己的机器，不共享环境，减少冲突。

子 Agent 也可以作为上下文管理工具：让它去找某个文件或实现，消耗掉的工具调用和 token 最后折叠成一个答案返回主 Agent。它看起来更像一个工具调用，而不是两个协作者持续对话。

兴趣匹配度高。它对你现在的 multi-repo / multi-pane agent workflow 很有参考价值：并行有价值，但边界、隔离、汇总和责任链比 Agent 数量更重要。

【失控的 vibe coding 会把代码库拉回最差工程师的模式】

背景：访谈后段最值得保留的警告是：只让 AI 狂写，短期看很快，长期会污染代码库的模式库。

如果连续两周让 AI 自由写代码，你可能会发现改一个按钮颜色时，它其实散落在十几个实现里，每处还有不同变体。这时必须重新引入代码审查和清理，确保软件以可扩展方式演进。

代码库会退化到最差工程师的模式。那个最激进使用 AI、又不审代码的人，会把自己的坏模式固化进代码库；之后 AI 会继续参考这些模式，把重复、臃肿和混乱放大。解决办法是定期清理重复、收敛抽象，并对模块边界保持严格。

兴趣匹配度高。这是 AI coding 管理的硬问题：代码库本身会变成模型的上下文和训练场，组织必须治理上下文质量，否则 AI 会放大最差实践。

【AI code smell 要制度化为 lint、Semgrep 和 review 规则】

背景：这组摘录非常实操。它没有泛泛说 AI 写代码质量差，而是描述了可检测的坏模式。

AI 为了避免失败，会写出过度防御的代码。明明知道对象有某个属性，它也会到处用 getattr，因为这样更不容易报错。很多团队已经把这种模式写成 lint 规则：只要 PR 里出现这类 getattr，就直接失败。

另一类常见坏味道是为了兼容一切而制造奇怪的导入导出、保留旧模块名、到处塞 any、dict string any、无类型元组。这些都可以通过 Semgrep 或其他静态规则识别。真正的经验来自反复观察 AI 代码模式，然后把坏味道固化成自动化防线。

兴趣匹配度高。这是可以直接迁移到团队实践的判断：AI 代码治理应该沉淀为规则、检查器和审查模板，而不是靠每次人工凭感觉指出问题。

【Agent-ready codebase 的目标是让 Agent 能本地跑完、测完、报告完】

背景：这组摘录把企业迁移方向讲得很具体。老代码库要迎接 Agent，不是买工具就够了，而是要改造本地开发和测试路径。

团队越多使用 AI Agent，越需要让 Agent 能做完整任务：不只是写代码，还要运行和测试。很多代码库一开始并不是为这件事设计的，因此需要本地数据库、本地 Docker Compose、本地 Postgres，避免为了运行测试而给 Agent 生产凭证。

Cognition 内部也在把核心组件迁移成纯本地开发即可测试，不需要接入真实线上服务。公司越老、服务越多、微服务越复杂，这种迁移越难，但现在可以用 AI 帮助做这类迁移。

兴趣匹配度高。它给出了组织层面的行动项：把代码库改造成 Agent 可操作资产。长期看，谁的代码库更 agent-ready，谁的 AI 编程收益上限更高。

【本地与云端 Agent 会分工：本地做快决策，后台跑到完整报告】

背景：Windsurf 2.0 这一段讨论的是未来 IDE 形态：本地窗口成为所有 Agent 的控制台。

理想工作流是：本地窗口成为本地 Agent 和后台 Agent 的统一控制台。需要人工审查时，把云端任务拉回本地；其他任务继续在后台跑。你不需要离开这个窗口，就可以审批问题、启动后台 Agent、接收测试结果。

本地 Agent 和云端 Agent 的理想行为不同。本地 Agent 应该更快，把决策权留给用户；后台 Agent 则应该持续运行，直到它完成测试并给出完整报告，再发下一条消息。

兴趣匹配度高。这条适合判断下一代 AI IDE：不是本地或云端二选一，而是 foreground 与 background 的接力系统。产品价值在于任务状态、上下文交接和验收证据。

【自主编码工厂的稀缺能力仍然是高品味端到端交付】

背景：全文结尾把技术趋势落回人。即使公司想变成 autonomous coding factory，人的能力并没有消失，而是换了位置。

很多公司现在都想把自己变成自主编码工厂。这个阶段反而容易低估高品味产品工程师的作用。真正值得找的人，是那些端到端交付过自己认可的、有品味产品的人。

后台 Agent 的价值也会扩展到工程之外：SRE 告警先由 Agent 收集日志、数据库和处置路径；PM 可以通过 Slack 触发小修复并生成 PR；客服能把客户问题转成完整工程上下文，减少来回追问。

兴趣匹配度高。它对应一个更大的组织判断：编码自动化会降低代码生成的稀缺性，但端到端产品判断、任务定义、质量标准和组织集成能力会更稀缺。

整体评价：兴趣匹配度很高。这篇最有价值的地方不是 Cognition 又融资了多少，而是它把后台编码 Agent 的真实生产问题讲完整了：架构边界、执行环境、测试验证、企业集成、记忆、多 Agent 编排、代码质量治理、agent-ready codebase、本地与云端接力。对你正在关注的 AI coding、上下文工程、多 Agent 协作和团队落地都有直接参考价值。