跳到正文
汉松札记
返回

递归式 Coding Agent 高亮

AI Highlight

来源

递归式 Coding Agent 高亮

文本来源是 AI Engineer 频道视频《递归式 Coding Agent》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《递归式 Coding Agent》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

“被误管理的天才”的观点认为,下一步需要的不是更强的原始智能,而是行为层面的东西,是编排。

可以想象这样的工作流:某个子 agent 需要特定的 skill 才能完成它在工作流中的角色,或者必须访问某个特定的 CLI 工具才能正常运行。

还可以做审计、bug 扫描;可以做对抗性操作,比如让一个怀疑性 agent 或红队 agent 集群从对抗角度或并行方式来改进系统。还有一个我最近刚加的功能,回到我第一张幻灯片的主题:某天得到了惊艳的结果,第二天 agent 把我的加密货币全花掉了(幸好数额很小)。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

我们从 chain-of-thought 作为 prompting 策略,演化到推理模型将 chain-of-thought 显式表达为推理 token,再加上 function calling、tool calling、parallel tool calling——RLM 把这些融合在一起,产生了惊人的效果。

现在有一个新的 benchmark 叫 Long CoT,它的难点在于:问题需要极多的推理步骤,导致绝大多数推理模型(包括顶尖模型)都无法维持足够长的连贯推理链。

系统有一个 read-evaluate-print loop(REPL),agent 与它交互。在原始论文中用的是 Python。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

我个人认为,RLM 代表了 test time compute、inference time compute 的新范式——tool calling 与推理被统一起来,通过 tool calling 来推理,可以递归迭代,其中一个工具就是调用另一个 agent 去完成某个子任务或子问题。另外,我也希望这能平息一些争论:coding agent 可以成为 RLM。

我认为这正好是一个很好的切入口,用来解释递归式 coding agent 的力量以及 RLM 究竟是什么。Dynamic workflows 几周前刚发布,让 Claude Code 具备了递归或执行这些递归工作流的能力。

OpenProse 能够把任何拥有文件系统和子 agent 能力的 coding agent 转变成 RLM。这是一个开源 repo,可以自行查看,我也在 Turing Post 上写了更深入的文章。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

当初有了递归 coding agent 的想法时,我想用 pi 来实现,但当时无法通过 pi 扩展达到这个目标,不得不 fork 了它。令我兴奋的是:为了这次演讲,我重新审视了这个问题,发现 pi 和它的扩展机制已经演化,现在可以完全通过纯扩展实现递归。

两个例子:左边是一个备受关注的案例——Symbolica 团队有一个叫 Agentica 的 RLM agent harness,在 Arc AGI-3 发布后数小时内,当时所有前沿模型的最高分都只有 2-3%,Symbolica 团队就用 RLM 跑出了 30 多个百分点。

核心论点是:今天的 agent 是被误管理的天才。智能已经具备,缺失的那一层是:如何规范、管理、复用和验证工作。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

成为 RLM 的必要条件:有可执行环境、prompt 是外部化的、调用模型的是代码本身、模型能自主决定如何将问题分解为子调用或子 agent、状态保持符号化。显然,普通 LLM 和 RAG 之类不满足这些条件。

举个简单的例子:某天我用一个 prompt(虽然很长)就几乎得到了一个完整可用的 SaaS 应用;而第二天——我发誓这是真实发生的——Claude Code 把我 Solana 钱包里的所有内容全清空了。这实在不能让人建立信任。

如果允许 RLM 用代码和递归子 agent 调用来联合求解,一个非常小的模型——Qwen 3.59B,可以在笔记本电脑上运行——就能在这些长推理任务上超越 Opus、GPT-5.4 等所有顶尖前沿模型。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《递归式 Coding Agent》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
结构化非结构化内容高亮
下一篇
绕过多模态税:混合 RAG、SQL RRF 与 UI 遥测高亮