跳到正文
汉松札记
返回

Anthropic Claude Code 深度访谈:Agent 工程化的下一步

AI Highlight

来源

Anthropic Claude Code 深度访谈高亮

文本来源是 InfoQ 对 Big Technology Podcast 访谈的翻译整理。它表面在讲 Claude Code 的增长、Token、Rate Limit 和竞争,真正有价值的部分是 Anthropic 对 Agent 工程化的几条判断:AI coding 的瓶颈从模型能力转向流程重构,Agent 产品从单次问答转向长时间运行和并行调度,人类的工作从亲自执行转向定义目标、分配任务、验证结果和承担责任。按汉松兴趣画像,以下高亮优先保留机制解释、反常识判断和可迁移 workflow。

一、Agent 的价值差异来自工具调用和真实操作权

背景

Boris 对 Claude Code 的定义很直接:它不是更会聊天的机器人,而是能进入本地文件、浏览器和线上服务的行动系统。这个差异看起来只是多了工具调用,本质上改变了软件的使用方式:从界面操作转成目标驱动。

聊天机器人只能来回文字沟通,而 Claude Code 属于智能代理,可以自主调用各类工具完成操作。

Claude Code 可以连通各类工具、浏览器以及本地电脑设备。早在一年半前,几乎没有 AI 产品能直接修改本地文件;文件编辑、桌面整理和本地操作这些细小差异,彻底改变了产品的实用价值。

用户输入自然语言指令后,智能体就能自主写代码、调用工具完成任务。它的受众也从专业程序员逐步拓展到普通用户,普通人可以用它搭建程序、制作网站,也可以让它操作协同办公软件处理事务。

兴趣匹配度高。这里最值得保留的不是 Claude Code 的功能清单,而是产品形态的边界变化:一旦 AI 获得受控的操作权,软件就从被人点击的工具,变成替人推进任务的执行体。对 Hermes、OpenClaw 或团队内部 Agent 系统来说,关键设计点就是工具权限、上下文可见性、操作记录和回滚验证。

二、AI 提效的前提是围绕 AI 重构业务流程

背景

关于刷 Token 的讨论里,Boris 没有把问题简单归结为泡沫。他借 90 年代电脑普及的类比指出:新技术进入组织后,效率不会自动出现。真正的生产力提升来自流程重构,而不是把 AI 当成旧流程旁边的附属工具。

过去用传统优化手段,团队耗费大量精力,全年人均效率只能提升 1% 到 3%。接入 Claude 模型后,很多合作企业的员工效率实现数倍增长;Anthropic 自研 Claude Code 上线后,公司工程师代码产出量提升 250%,同时代码质量与稳定性保持稳定。

要想从电脑中获益,必须把整个业务流程围绕电脑重构,让电脑成为核心。如果纸质文件、档案柜和纸笔流程仍然是中心,电脑只是边缘摆设,就不可能真正受益。

AI 也是一样。很多公司都在思考如何真正从 AI 的效率提升中获益。大家都在试,各种方法都在探索,我不认为有唯一正确答案。

兴趣匹配度很高。这组内容可直接迁移到 AI coding 与团队管理:买工具、开额度、强制使用,都只是表层。组织级收益来自把需求拆解、代码评审、测试、发布、客户反馈、知识沉淀这些流程重新设计成 AI-first 的链路。真正的竞争力是流程改造能力。

三、Token 效率要服从能力阈值,控制权逐步交给用户

背景

主持人追问 Agent 是否在浪费 Token,Boris 的回答有一个重要排序:智能、速度、效率都重要,但在早期阶段,智能水平优先。只有模型先具备完成任务的能力,效率优化才有意义。同时,Anthropic 正在把 effort 这类成本控制旋钮交给用户。

我们通常从几个维度评估模型:智能程度、速度和效率。理想情况下当然希望三者一起提升;但如果必须排序,最重要的还是智能水平。即使一个模型暂时没那么高效,只要它更聪明、能完成更多事情,依然非常有价值。

效率优化通常发生在模型先变聪明之后。我们一般是先提升能力,再优化效率。

Effort 本质上是在问:你希望模型为这个任务投入多少思考和计算资源?如果想最大化智能表现,可以设置 Extra High 或 Maximum effort;如果想节省 Token,也可以切换成 Medium 或 Low。

兴趣匹配度高。这个判断很适合放进模型配置和 Agent 调度的原则里:不要用单次成本否定能力跃迁,也不要用最大 effort 处理所有任务。更合理的系统应该按任务风险、难度、可验证性和成本预算动态选择模型与努力程度。

四、长时间运行任务需要从人类审批转向模型辅助监督

背景

Auto Mode 是这篇里最有工程含量的一段。它解决的不是用户体验里少点几次确认,而是长任务里人工审批会失效。权限弹窗太多之后,人类会疲劳,最终一路点允许。Anthropic 的方案是让另一个 Claude 参与安全审核,并用 eval 和 benchmark 验证它比人工疲劳点击更安全。

过去每次 Claude 调用工具,系统都会问用户是否允许。但用户最终会被提示框搞疲劳,很多人不再认真看,直接一路点允许或始终允许,这从安全角度很危险。

与其让人类不断点击确认,不如让另一个 Claude 来审核。当 Claude 想调用某个工具时,会先询问另一个 Claude:这个操作安全吗?第二个 Claude 会拿到部分上下文,背后还有多层安全检查机制。

Anthropic 为此迭代了几个月,内部有数千个 benchmark 和 eval 用来验证安全性。最终结果是,无论在实验室测试还是实际用户环境中,Auto Mode 都比之前的人工点击确认机制更安全。

兴趣匹配度很高。这是 Agent 安全设计的一个可复用模式:当任务链条变长,逐步审批会退化为形式主义。更好的设计是把人类从重复确认中释放出来,让系统做低层审查,让人类保留高层目标、权限边界和最终责任。

五、并行 Agent 会把个人工作界面变成调度系统

背景

Rate Limit 的抱怨背后,其实是使用方式发生了变化。早期用户一次跑一个 Agent,现在重度用户会同时运行多个,甚至在晚上批量跑数百上千个实例。Boris 的描述说明,AI 工作流正在从单线程对话变成并行计算资源调度。

刚发布 Claude Code 时,大家一次只跑一个 Agent。但现在,我自己电脑上经常同时跑五个。每天晚上,我还会并行运行数百个,甚至上千个 Claude 实例。这在一年前完全无法想象。

真正的重度 Claude Code 用户,几乎不会只运行一个 Claude。很多人会同时运行多个,从几个到几十个,甚至上千个。当用户逐渐信任 Agent 后,他们会开一个任务、再开第二个,然后继续并行推进更多事情。

这里还有大量体验优化空间:如何更自然地管理多个 Agent,什么场景适合并行,用户应该如何组织自己的工作流。这些问题都还非常早期。

兴趣匹配度很高。这正对应汉松长期关注的 agent workflow:未来的个人工作台可能更像任务调度器,而不是聊天窗口。核心能力包括任务切分、上下文隔离、队列管理、成本监控、状态汇总、失败重试和结果验收。

六、人的位置从执行者转向顶层驾驶者

背景

关于完全自动化,Boris 给出的答案比替代论更精确:他本人已经很少亲自写代码,而是在 Prompt Claude,甚至让一个 Claude 去 Prompt 其他 Claude。但即使链条变深,系统仍然需要有人决定做什么、为什么做、做到什么程度。

我现在几乎不亲自写代码。我是在 Prompt Claude。更进一步的是,很多时候我甚至不是直接 Prompt Claude,而是有一个 Claude 专门负责去 Prompt 其他 Claude。

一个 Claude 可以管理其他 Claude。在工程领域,我们已经看到巨大的杠杆效应,一个人的生产力正在被极度放大。今天在 Anthropic,一个工程师能够支撑的业务规模、产品规模,已经远远超过过去。

无论自动化程度多高,最终还是需要人来告诉 Claude 该做什么。未来 Claude 会越来越擅长帮你指挥 Claude,链条会越来越深:人输入 Prompt 给 Claude,Claude 再去 Prompt 其他 Claude,那些 Claude 再协调更多 Agent。但仍然需要有人在最顶层驾驶这套系统。

提出正确问题本身就是一件极高杠杆的事。

兴趣匹配度很高。这可以接到汉松的求解、创造、担当模型:AI 把执行层不断自动化,人类的高价值环节转向定义问题、组织资源、判断方向和承担后果。所谓最顶层驾驶,不只是会提问,而是知道什么问题值得问、该交给谁做、怎样验收、出了问题由谁负责。

七、SaaS 护城河会被重新定价,但不会平均消失

背景

Boris 对 SaaS Apocalypse 的回答避免了极端判断。他承认 AI 会削弱某些护城河,尤其是切换成本;同时也认为网络效应、协议、规模经济和基础设施优势仍然成立。AI 降低的是软件构建门槛,不是所有商业结构。

未来并不是所有护城河都会消失。有些反而会变得更重要,比如网络效应。无论谁写代码,无论底层是不是 Agent,只要产品拥有网络效应,它依然强大。

有些护城河会被削弱,例如切换成本。过去企业很难从 Vendor A 切到 Vendor B;未来你可能只需要告诉 Claude 帮我迁移过去,Claude 会越来越擅长这种系统迁移。

即便未来人人都能自己构建 App,也不意味着护城河会消失。两种趋势会同时存在:AI 降低软件构建门槛,但深层的规模优势依然存在。

兴趣匹配度中高。这是看 AI 产品和创业机会时很实用的过滤器:不要笼统判断 SaaS 会消失,而要逐项拆护城河。被 AI 削弱的是实现难度、迁移成本和流程摩擦;更稳的是网络效应、数据闭环、分发、协议、信任、合规和规模经济。

八、自我改进已经出现弱闭环,但还需要人类判断方向

背景

文章最后讨论 2028 年 AI 自我改进的概率。Boris 认可快速递归增强的可能性,但也划清了当前状态:Claude Code 已经在写 Claude Code,甚至会提出产品下一步,但核心方向仍由人决定。这里的重点不是自我改进是否已经到来,而是弱闭环如何从 dogfood 逐步走向自我强化。

Claude Code 本身已经 100% 使用 Claude Code 开发。这个状态大概从 Opus 4.5 开始就成立了。

AI 开始递归式自我增强,确实是未来可能发生的一种结果。现在还没有真正到那个阶段。目前 Claude Code 虽然已经在写 Claude Code,但仍然需要人类 Prompt。

它已经开始自己提出 Claude Code 下一步应该开发什么功能,但这些想法很多时候还不够好。当前大部分核心方向依然由人来决定。未来模型继续变强后,整个系统会逐步进入自我强化循环。

兴趣匹配度高。这是一个判断 AGI 路径的具体观测点:自我改进不是突然出现的开关,而是从模型参与自身工具开发、生成改进建议、执行改动、验证效果开始,一步步增加闭环比例。现在最关键的人类角色是方向判断和安全约束。

整体判断

这篇最值得保留的不是 Anthropic 又增长了多少,也不是 Claude Code 是否会赢下 Agent 市场,而是它给出了一组非常工程化的未来图景:Agent 的核心能力来自真实操作权;AI 生产力需要组织流程重构;长任务需要模型辅助监督而不是人类疲劳审批;并行 Agent 会把个人工作界面改造成调度系统;人类的位置从执行者迁移到顶层驾驶者。

对汉松最有价值的 takeaway 是:Agent 时代的稀缺能力不是会不会用某个工具,而是能不能设计一套可运行的协作系统。这个系统要能把目标、上下文、权限、成本、并行、验证、安全和责任连接起来。模型能力越强,这套系统设计能力越值钱。


订阅 AI Highlight

分享这篇文章:


下一篇
从 OpenClaw 到 Hermes Agent:Agent 不是聊天框,而是新的工作系统