Anthropic Claude Code 深度访谈：Agent 工程化的下一步

来源

原始链接：https://mp.weixin.qq.com/s/vkni-EZE7zUzxKkh4uGpPg
来源类型：微信公众号原文
来源标题：Anthropic Claude Code 深度访谈：AI Agent 工程化实践与行业变革前瞻

文本来源是 InfoQ 对 Big Technology Podcast 访谈的翻译整理。它表面在讲 Claude Code 的增长、Token、Rate Limit 和竞争，真正有价值的部分是 Anthropic 对 Agent 工程化的几条判断：AI coding 的瓶颈从模型能力转向流程重构，Agent 产品从单次问答转向长时间运行和并行调度，人类的工作从亲自执行转向定义目标、分配任务、验证结果和承担责任。按汉松兴趣画像，以下高亮优先保留机制解释、反常识判断和可迁移 workflow。

一、Agent 的价值差异来自工具调用和真实操作权

背景

Boris 对 Claude Code 的定义很直接：它不是更会聊天的机器人，而是能进入本地文件、浏览器和线上服务的行动系统。这个差异看起来只是多了工具调用，本质上改变了软件的使用方式：从界面操作转成目标驱动。

聊天机器人只能来回文字沟通，而 Claude Code 属于智能代理，可以自主调用各类工具完成操作。

Claude Code 可以连通各类工具、浏览器以及本地电脑设备。早在一年半前，几乎没有 AI 产品能直接修改本地文件；文件编辑、桌面整理和本地操作这些细小差异，彻底改变了产品的实用价值。

用户输入自然语言指令后，智能体就能自主写代码、调用工具完成任务。它的受众也从专业程序员逐步拓展到普通用户，普通人可以用它搭建程序、制作网站，也可以让它操作协同办公软件处理事务。

兴趣匹配度高。这里最值得保留的不是 Claude Code 的功能清单，而是产品形态的边界变化：一旦 AI 获得受控的操作权，软件就从被人点击的工具，变成替人推进任务的执行体。对 Hermes、OpenClaw 或团队内部 Agent 系统来说，关键设计点就是工具权限、上下文可见性、操作记录和回滚验证。

二、AI 提效的前提是围绕 AI 重构业务流程

背景

关于刷 Token 的讨论里，Boris 没有把问题简单归结为泡沫。他借 90 年代电脑普及的类比指出：新技术进入组织后，效率不会自动出现。真正的生产力提升来自流程重构，而不是把 AI 当成旧流程旁边的附属工具。

过去用传统优化手段，团队耗费大量精力，全年人均效率只能提升 1% 到 3%。接入 Claude 模型后，很多合作企业的员工效率实现数倍增长；Anthropic 自研 Claude Code 上线后，公司工程师代码产出量提升 250%，同时代码质量与稳定性保持稳定。

要想从电脑中获益，必须把整个业务流程围绕电脑重构，让电脑成为核心。如果纸质文件、档案柜和纸笔流程仍然是中心，电脑只是边缘摆设，就不可能真正受益。

AI 也是一样。很多公司都在思考如何真正从 AI 的效率提升中获益。大家都在试，各种方法都在探索，我不认为有唯一正确答案。

兴趣匹配度很高。这组内容可直接迁移到 AI coding 与团队管理：买工具、开额度、强制使用，都只是表层。组织级收益来自把需求拆解、代码评审、测试、发布、客户反馈、知识沉淀这些流程重新设计成 AI-first 的链路。真正的竞争力是流程改造能力。

三、Token 效率要服从能力阈值，控制权逐步交给用户

背景

主持人追问 Agent 是否在浪费 Token，Boris 的回答有一个重要排序：智能、速度、效率都重要，但在早期阶段，智能水平优先。只有模型先具备完成任务的能力，效率优化才有意义。同时，Anthropic 正在把 effort 这类成本控制旋钮交给用户。

我们通常从几个维度评估模型：智能程度、速度和效率。理想情况下当然希望三者一起提升；但如果必须排序，最重要的还是智能水平。即使一个模型暂时没那么高效，只要它更聪明、能完成更多事情，依然非常有价值。

效率优化通常发生在模型先变聪明之后。我们一般是先提升能力，再优化效率。

Effort 本质上是在问：你希望模型为这个任务投入多少思考和计算资源？如果想最大化智能表现，可以设置 Extra High 或 Maximum effort；如果想节省 Token，也可以切换成 Medium 或 Low。

兴趣匹配度高。这个判断很适合放进模型配置和 Agent 调度的原则里：不要用单次成本否定能力跃迁，也不要用最大 effort 处理所有任务。更合理的系统应该按任务风险、难度、可验证性和成本预算动态选择模型与努力程度。

四、长时间运行任务需要从人类审批转向模型辅助监督

背景

Auto Mode 是这篇里最有工程含量的一段。它解决的不是用户体验里少点几次确认，而是长任务里人工审批会失效。权限弹窗太多之后，人类会疲劳，最终一路点允许。Anthropic 的方案是让另一个 Claude 参与安全审核，并用 eval 和 benchmark 验证它比人工疲劳点击更安全。

过去每次 Claude 调用工具，系统都会问用户是否允许。但用户最终会被提示框搞疲劳，很多人不再认真看，直接一路点允许或始终允许，这从安全角度很危险。

与其让人类不断点击确认，不如让另一个 Claude 来审核。当 Claude 想调用某个工具时，会先询问另一个 Claude：这个操作安全吗？第二个 Claude 会拿到部分上下文，背后还有多层安全检查机制。

Anthropic 为此迭代了几个月，内部有数千个 benchmark 和 eval 用来验证安全性。最终结果是，无论在实验室测试还是实际用户环境中，Auto Mode 都比之前的人工点击确认机制更安全。

兴趣匹配度很高。这是 Agent 安全设计的一个可复用模式：当任务链条变长，逐步审批会退化为形式主义。更好的设计是把人类从重复确认中释放出来，让系统做低层审查，让人类保留高层目标、权限边界和最终责任。

五、并行 Agent 会把个人工作界面变成调度系统

背景

Rate Limit 的抱怨背后，其实是使用方式发生了变化。早期用户一次跑一个 Agent，现在重度用户会同时运行多个，甚至在晚上批量跑数百上千个实例。Boris 的描述说明，AI 工作流正在从单线程对话变成并行计算资源调度。

刚发布 Claude Code 时，大家一次只跑一个 Agent。但现在，我自己电脑上经常同时跑五个。每天晚上，我还会并行运行数百个，甚至上千个 Claude 实例。这在一年前完全无法想象。

真正的重度 Claude Code 用户，几乎不会只运行一个 Claude。很多人会同时运行多个，从几个到几十个，甚至上千个。当用户逐渐信任 Agent 后，他们会开一个任务、再开第二个，然后继续并行推进更多事情。

这里还有大量体验优化空间：如何更自然地管理多个 Agent，什么场景适合并行，用户应该如何组织自己的工作流。这些问题都还非常早期。

兴趣匹配度很高。这正对应汉松长期关注的 agent workflow：未来的个人工作台可能更像任务调度器，而不是聊天窗口。核心能力包括任务切分、上下文隔离、队列管理、成本监控、状态汇总、失败重试和结果验收。

六、人的位置从执行者转向顶层驾驶者

背景

关于完全自动化，Boris 给出的答案比替代论更精确：他本人已经很少亲自写代码，而是在 Prompt Claude，甚至让一个 Claude 去 Prompt 其他 Claude。但即使链条变深，系统仍然需要有人决定做什么、为什么做、做到什么程度。

我现在几乎不亲自写代码。我是在 Prompt Claude。更进一步的是，很多时候我甚至不是直接 Prompt Claude，而是有一个 Claude 专门负责去 Prompt 其他 Claude。

一个 Claude 可以管理其他 Claude。在工程领域，我们已经看到巨大的杠杆效应，一个人的生产力正在被极度放大。今天在 Anthropic，一个工程师能够支撑的业务规模、产品规模，已经远远超过过去。

无论自动化程度多高，最终还是需要人来告诉 Claude 该做什么。未来 Claude 会越来越擅长帮你指挥 Claude，链条会越来越深：人输入 Prompt 给 Claude，Claude 再去 Prompt 其他 Claude，那些 Claude 再协调更多 Agent。但仍然需要有人在最顶层驾驶这套系统。

提出正确问题本身就是一件极高杠杆的事。

兴趣匹配度很高。这可以接到汉松的求解、创造、担当模型：AI 把执行层不断自动化，人类的高价值环节转向定义问题、组织资源、判断方向和承担后果。所谓最顶层驾驶，不只是会提问，而是知道什么问题值得问、该交给谁做、怎样验收、出了问题由谁负责。

七、SaaS 护城河会被重新定价，但不会平均消失

背景

Boris 对 SaaS Apocalypse 的回答避免了极端判断。他承认 AI 会削弱某些护城河，尤其是切换成本；同时也认为网络效应、协议、规模经济和基础设施优势仍然成立。AI 降低的是软件构建门槛，不是所有商业结构。

未来并不是所有护城河都会消失。有些反而会变得更重要，比如网络效应。无论谁写代码，无论底层是不是 Agent，只要产品拥有网络效应，它依然强大。

有些护城河会被削弱，例如切换成本。过去企业很难从 Vendor A 切到 Vendor B；未来你可能只需要告诉 Claude 帮我迁移过去，Claude 会越来越擅长这种系统迁移。

即便未来人人都能自己构建 App，也不意味着护城河会消失。两种趋势会同时存在：AI 降低软件构建门槛，但深层的规模优势依然存在。

兴趣匹配度中高。这是看 AI 产品和创业机会时很实用的过滤器：不要笼统判断 SaaS 会消失，而要逐项拆护城河。被 AI 削弱的是实现难度、迁移成本和流程摩擦；更稳的是网络效应、数据闭环、分发、协议、信任、合规和规模经济。

八、自我改进已经出现弱闭环，但还需要人类判断方向

背景

文章最后讨论 2028 年 AI 自我改进的概率。Boris 认可快速递归增强的可能性，但也划清了当前状态：Claude Code 已经在写 Claude Code，甚至会提出产品下一步，但核心方向仍由人决定。这里的重点不是自我改进是否已经到来，而是弱闭环如何从 dogfood 逐步走向自我强化。

Claude Code 本身已经 100% 使用 Claude Code 开发。这个状态大概从 Opus 4.5 开始就成立了。

AI 开始递归式自我增强，确实是未来可能发生的一种结果。现在还没有真正到那个阶段。目前 Claude Code 虽然已经在写 Claude Code，但仍然需要人类 Prompt。

它已经开始自己提出 Claude Code 下一步应该开发什么功能，但这些想法很多时候还不够好。当前大部分核心方向依然由人来决定。未来模型继续变强后，整个系统会逐步进入自我强化循环。

兴趣匹配度高。这是一个判断 AGI 路径的具体观测点：自我改进不是突然出现的开关，而是从模型参与自身工具开发、生成改进建议、执行改动、验证效果开始，一步步增加闭环比例。现在最关键的人类角色是方向判断和安全约束。

整体判断

这篇最值得保留的不是 Anthropic 又增长了多少，也不是 Claude Code 是否会赢下 Agent 市场，而是它给出了一组非常工程化的未来图景：Agent 的核心能力来自真实操作权；AI 生产力需要组织流程重构；长任务需要模型辅助监督而不是人类疲劳审批；并行 Agent 会把个人工作界面改造成调度系统；人类的位置从执行者迁移到顶层驾驶者。

对汉松最有价值的 takeaway 是：Agent 时代的稀缺能力不是会不会用某个工具，而是能不能设计一套可运行的协作系统。这个系统要能把目标、上下文、权限、成本、并行、验证、安全和责任连接起来。模型能力越强，这套系统设计能力越值钱。