来源
- 原始链接:https://www.xiaoyuzhoufm.com/episode/69e96b5b1e94ae6921ee3c2b
- 来源类型:播客逐字稿
- 来源标题:从 OpenClaw 到 Hermes Agent:中美一线开发者深度对谈 AI Agent 行业热点与技术趋势
从 OpenClaw 到 Hermes Agent:Agent 不是聊天框,而是新的工作系统
这期播客真正有价值的地方,不是介绍 Hermes Agent 或 OpenClaw 的功能,而是把 Agent 行业的几个底层分歧讲清楚了:模型与 harness 谁更重要,Agent 应该厚约束还是薄封装,人的价值会迁移到哪里,工作流会被模型内化到什么程度,以及个人如何在这个变化里重构自己的生产方式。
1. Agent 框架是模型接触真实世界的双手
背景:嘉宾把大语言模型和 Agent Harness 的关系讲得很清楚。模型像大脑,但大脑无法直接进入真实世界。Agent 框架负责工具编排、主循环、状态管理和错误处理,是模型能力变成行动能力的中间层。
如果把大语言模型比作大脑,智能体框架就是双手。它负责管理工具、循环、状态和错误,让模型可以真正执行任务。
兴趣匹配度高。这个判断适合放进上下文工程的核心框架里:模型能力本身不是产品力,围绕模型建立的执行系统、反馈系统和状态系统,才决定它能否稳定进入真实任务。
2. 技能化的本质是把一次成功压缩成可复现路径
背景:Hermes Agent 被反复强调的一点是 memory 和 skill。它解决的不是模型一次回答聪明的问题,而是同类任务下次还会不会走对路径的问题。
深度使用 Agent 后会遇到一个问题:这次做对了,下次同样任务又失败。Hermes Agent 的记忆和技能系统,就是把成功工作流保存下来,让它能被反复调用。
自我提升不是神秘能力,而是有价值的知识压缩。只要同一个框架和技能层稳定存在,即使用不同模型,也能得到相近的预期输出。
兴趣匹配度很高。这和汉松一直关心的 skill 化、上下文工程、个人工作流沉淀完全同频。真正值得沉淀的不是一次对话里的答案,而是能迁移到下一次任务的操作路径。
3. Multi-Agent 的价值:绕过人类通信带宽和单 Agent 上下文污染
背景:这一段对 Multi-Agent 的解释比较实在。它没有停留在角色扮演,而是指出两个工程价值:模型之间的信息交换密度远高于人机对话;多个 Agent 可以用新上下文互相检查,缓解单 Agent 长上下文退化。
人和模型对话时,人类输入很少,模型输出很多;但两个模型之间可以高频、秒回、长文本交换信息。多 Agent 的效率优势,来自更高密度的信息交换。
单个 Agent 的上下文过长后,智能水平会明显下降,长程任务中只要某一步偏了,就容易越走越偏。因此可以让另一个 Agent 在全新上下文里做交叉审查。
兴趣匹配度高。这给 Multi-Agent 找到了更硬的理由:它不是为了热闹,而是为了处理人机带宽瓶颈、上下文污染、路径依赖和长程任务误差累积。
4. 人类正在从执行者迁移为目标、品味和判断的提供者
背景:播客里多次提到人类会成为多 Agent 系统的瓶颈。嘉宾的回答不是让人退出,而是把人的价值重新定位:目标定义、taste、方向感、创造力和最终判断。
当本地同时跑五六个 Agent,云端还有十个 Agent 在不同分支上工作时,瓶颈逐渐变成人类自己。人需要不断在上下文之间切换、输入、判断。
即使未来出现零人公司,一人公司仍然会存在。因为 taste 不会消失。Agent 可以 7×24 小时工作,但起点、目标和判断标准仍然要由人来给出。
在复杂任务里,如果想扩大产出,就要让 AI 承担很大比例的迭代工作。人类更多负责驾驭、判断、taste、方向和创造力。
兴趣匹配度很高。这直接对应汉松的长期主题:AI 共生不是把人变成旁观者,而是把人的位置从重复执行迁移到目标设定、判断负责和系统驾驭。
5. Agent 不是一次性回答,而是行动之后重新思考
背景:嘉宾区分了 Chatbot 和 Agent:Chatbot 面向即时回答,Agent 面向环境交互。关键机制是 interleave thinking,也就是每次行动、工具调用、环境反馈后都重新思考下一步。
Chatbot 的核心是当下给出回答;Agent 的核心是和环境互动,在过程中不断推理和修正路径。它不是一开始 plan 完就照着做,而是在每次工具调用之后重新思考下一步。
兴趣匹配度高。这是构建可靠 Agent 的基本原则:plan 是循环状态,不是一次性文档。长程任务的关键不是初始计划多漂亮,而是每一轮反馈后能否重估路径。
6. Agent 生态真正的扩散层,可能是普通人能写的 skill 和 CUI
背景:播客里把 MCP、skill、CUI 做了区分。MCP 扩展性强,但工程门槛高;skill 和 CUI 的价值在于普通人也能写、能分享、能让自己的 Agent 和别人的 Agent 同时变聪明。
MCP 很强,但需要工程师写。skill 加 CUI 的范式让普通人也能写,也能分享。这样不只是让自己的 Agent 更聪明,也能让别人的 Agent 更聪明。
兴趣匹配度很高。这是 Agent 生态的关键判断:协议解决工具连接,skill 解决经验传播。对个人来说,最值得投入的不是堆工具,而是把自己的判断、流程和偏好变成可复用的 skill。
7. 通用 Agent 应用的悲哀:脚手架会被模型内化
背景:这一段对 Agent 创业和产品形态有冷判断。模型和应用会互相促进,用户和开发者把模型能力往外推,模型公司再把这些 unlock 方式吸收到下一代模型或官方 Agent 中。
通用 Agent 应用的悲哀是:你永远可能被模型内化掉。你写的 skill、搭的 workflow、做的脚手架,未来可能都不需要了。
Agent 或 harness 层会随着模型进步不断换代。模型 unlock 新玩法后,上一代产品范式就会被替换。
兴趣匹配度高。这对判断 Agent 产品机会很有用:通用层的 workflow 可能只是过渡脚手架。更稳的资产往往在独特数据、领域 know-how、用户关系、分发网络,以及难被模型公司统一吸收的上下文资产。
8. 厚 Harness 与薄 Harness:Claude Code 和 Codex 代表两种哲学
背景:源码泄露相关讨论里,嘉宾把 Claude Code 和 Codex 的差异概括为两种 Agent 设计哲学。Codex 更像放权模型,Claude Code 更像给模型铺路和约束。
Codex 是极度简化的人类框架,基本把一切交给模型;Claude Code 则在很多地方给模型铺好道路、设好约束。两者反映的是对模型能力信任程度的不同。
兴趣匹配度高。这是设计 Agent 系统时绕不开的分岔:是相信模型,让 harness 越薄越好;还是承认模型仍会失控,用规则、工具、上下文、权限和流程把它约束在可靠路径里。短期看,厚 harness 更稳;长期看,外层会逐渐变薄,但状态、权限、反馈和审计仍会存在。
9. Agent 的底层基础设施问题:身份、支付、归因和责任
背景:播客里对 Agent infra 的判断比较克制。最底层的 identity 和 payment 可能会变成社会级基础设施,创业公司的机会更可能在业务层 CUI 和 Agent 可操作环境。
Agent 发请求很容易,但证明这个请求真正来自哪里、归属于谁、是否可信,反而很难。AI 能做很多事情以后,它的行为应该如何归因:归属于个人、组织,还是某个系统?
Agent infra 最核心的是身份和支付,但这两个可能不是创业公司能处理的。更现实的机会在面向 Agent 的工具、环境和 CUI,比如挂号、缴费、打车这类业务环境。
兴趣匹配度高。对于长期运行的个人 Agent 或组织 Agent,身份、权限、审计、支付和责任归属比模型能力更底层。真正的落地问题不是 Agent 会不会操作,而是谁授权、谁承担后果、系统如何验证。
10. 产品形态会从展示过程,逐渐转向交付结果
背景:嘉宾认为 Manus 定义了一个阶段的交互范式:展示操作过程和结果。但随着模型能力与用户信任提升,用户对过程的需求会下降,日常界面会趋向极简,只在调试时展开过程。
上半年大家需要看过程,是因为不信任模型,或者看模型执行有爽感。但模型能力增强后,用户会逐渐不关心过程,只需要结果。
从 Copilot 到 Cursor 到 Claude Code,再到用 OpenClaw 指挥多个 Code,外面的那一层正在越来越薄。
兴趣匹配度中高。这个判断适合用于产品设计:过程透明不是永恒价值,而是信任不足阶段的补偿。成熟 Agent 产品需要区分调试视图和日常使用视图。
11. 工作方式将从 AI 适应人类,转向人类围绕 AI 重构生产方式
背景:这是整期最战略的一条。嘉宾把 AI 类比成电力和蒸汽机,强调它不是现有工作流的插件,而会迫使生产方式本身重构。
不要总想模型做不到,而要想:如果模型能够做到,我应该如何让它做到。工作方式会从以人为中心、AI 适应人类,变成人类围绕 AI 重新构建生产方式和工作流。
AI 更像电或蒸汽机。最终驾驭它、创造美好东西的仍然是人。风险不在于 AI 存在,而在于不用 AI,仍然拿冷兵器对抗热兵器。
兴趣匹配度很高。这可以作为汉松 AI 共生主题下的一条原则:AI 的价值不是自动化旧流程,而是迫使我们重新设计目标、流程、反馈、责任和人的位置。
整体评价
这期播客值得保留,因为它把 Agent 从工具讨论推进到了生产系统讨论。最值得带走的不是某个产品功能,而是几个结构性判断:模型是大脑,harness 是双手;skill 是知识压缩;Multi-Agent 解决的是通信带宽和上下文退化;人的位置会迁移到目标、taste 和责任;通用 Agent 的脚手架会被模型内化;真正长期的问题在身份、权限、反馈和工作流重构。
对汉松来说,最值得继续追的是这一句的工程化版本:不要问 Agent 能不能适配现有流程,而要问现有流程如何被改造成 Agent 能稳定执行、验证和复用的系统。