来源

原始链接：https://www.youtube.com/watch?v=3hXJI2q0Jz8
来源类型：视频逐字稿
来源标题：递归式 Coding Agent

递归式 Coding Agent 高亮

文本来源是 AI Engineer 频道视频《递归式 Coding Agent》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《递归式 Coding Agent》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

“被误管理的天才”的观点认为，下一步需要的不是更强的原始智能，而是行为层面的东西，是编排。

可以想象这样的工作流：某个子 agent 需要特定的 skill 才能完成它在工作流中的角色，或者必须访问某个特定的 CLI 工具才能正常运行。

还可以做审计、bug 扫描；可以做对抗性操作，比如让一个怀疑性 agent 或红队 agent 集群从对抗角度或并行方式来改进系统。还有一个我最近刚加的功能，回到我第一张幻灯片的主题：某天得到了惊艳的结果，第二天 agent 把我的加密货币全花掉了（幸好数额很小）。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

我们从 chain-of-thought 作为 prompting 策略，演化到推理模型将 chain-of-thought 显式表达为推理 token，再加上 function calling、tool calling、parallel tool calling——RLM 把这些融合在一起，产生了惊人的效果。

现在有一个新的 benchmark 叫 Long CoT，它的难点在于：问题需要极多的推理步骤，导致绝大多数推理模型（包括顶尖模型）都无法维持足够长的连贯推理链。

系统有一个 read-evaluate-print loop（REPL），agent 与它交互。在原始论文中用的是 Python。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

我个人认为，RLM 代表了 test time compute、inference time compute 的新范式——tool calling 与推理被统一起来，通过 tool calling 来推理，可以递归迭代，其中一个工具就是调用另一个 agent 去完成某个子任务或子问题。另外，我也希望这能平息一些争论：coding agent 可以成为 RLM。

我认为这正好是一个很好的切入口，用来解释递归式 coding agent 的力量以及 RLM 究竟是什么。Dynamic workflows 几周前刚发布，让 Claude Code 具备了递归或执行这些递归工作流的能力。

OpenProse 能够把任何拥有文件系统和子 agent 能力的 coding agent 转变成 RLM。这是一个开源 repo，可以自行查看，我也在 Turing Post 上写了更深入的文章。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

当初有了递归 coding agent 的想法时，我想用 pi 来实现，但当时无法通过 pi 扩展达到这个目标，不得不 fork 了它。令我兴奋的是：为了这次演讲，我重新审视了这个问题，发现 pi 和它的扩展机制已经演化，现在可以完全通过纯扩展实现递归。

两个例子：左边是一个备受关注的案例——Symbolica 团队有一个叫 Agentica 的 RLM agent harness，在 Arc AGI-3 发布后数小时内，当时所有前沿模型的最高分都只有 2-3%，Symbolica 团队就用 RLM 跑出了 30 多个百分点。

核心论点是：今天的 agent 是被误管理的天才。智能已经具备，缺失的那一层是：如何规范、管理、复用和验证工作。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

成为 RLM 的必要条件：有可执行环境、prompt 是外部化的、调用模型的是代码本身、模型能自主决定如何将问题分解为子调用或子 agent、状态保持符号化。显然，普通 LLM 和 RAG 之类不满足这些条件。

举个简单的例子：某天我用一个 prompt（虽然很长）就几乎得到了一个完整可用的 SaaS 应用；而第二天——我发誓这是真实发生的——Claude Code 把我 Solana 钱包里的所有内容全清空了。这实在不能让人建立信任。

如果允许 RLM 用代码和递归子 agent 调用来联合求解，一个非常小的模型——Qwen 3.59B，可以在笔记本电脑上运行——就能在这些长推理任务上超越 Opus、GPT-5.4 等所有顶尖前沿模型。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《递归式 Coding Agent》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。