来源
- 原始链接:https://www.youtube.com/watch?v=UNzCG3lw6O0
- 来源类型:视频逐字稿
- 来源标题:构建优秀 Agent 技能:缺失的手册
构建优秀 Agent 技能:缺失的手册高亮
文本来源是 AI Engineer 频道视频《构建优秀 Agent 技能:缺失的手册》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。
一、评估、反馈与故障闭环
背景
这组高亮抓住《构建优秀 Agent 技能:缺失的手册》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。
vertical slice 在开发领域是一个相当知名的术语,所以这有望触发 agent 的先验知识,它会理解我们的意思。我们不是只写一个两词 skill 说”vertical slice”,我们是把大量含义打包进一个相对短小的短语,然后在 skill 里反复使用它。
很多时候,如果 agent 没有按你想的做,你需要让你的 leading words 更一致、更有力,并且多找几个,因为英语作为一个 API 来说函数很丰富,可以实验的东西很多,有很多 leading word 候选,而且 agent 本身非常擅长帮你想出新的 leading words。
这些 leading words 用在 agent 上非常强大:你把 leading word 写进 skill 的文本里,agent 会在它的操作中、在它的 thinking token 里、在它对你的输出里,把这个 leading word 重复给自己。它重新强调了这个词,而这个词希望描述的正是你对 agent 的期望,这就会改变它的
兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。
二、上下文、记忆与检索边界
背景
这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。
你可以写一段 description,这个 description 会进入 agent 的 context,agent 看到之后可以说,好,根据这段描述,我要调用这个 skill,然后它会把 skill.md 文件(skill 的核心内容所在)读入自己的 context window。这就是调用 skill 时发生的事情,这就是 skill 被调用的方式。
有些 skill 只能由用户调用,因为它们没有这个 context pointer,这个 context pointer 是可选的。比如在我的代码库设计 skill 里,这是一个 model invocable skill,它有一段 description 会进入 agent 的 context window。
它新增了一段 description,每次请求都要消耗你的 token,同时还给 agent 多了一件需要思考的事情。如果你有 100 个 model invoked skill,那 agent 的 context 里就会有 100 段 description。
兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。
三、工具、系统与工程约束
背景
这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。
agent 知道它的最终目标是制定计划,所以它只在”提出澄清性问题”上做了一点点功课,问你几个问题,然后就急着去做计划了。我的解决方案是什么?
我们大概也每次都需要 test seam 说明,因为我们总是在询问 test seam 的事。所以 2PRD 只有一个分支,所有参考材料都属于那个分支,因此它们也应该留在 skill.md 文件里。
但我想在这里说清楚的是,model invoked skill 和 user invoked skill 各有各的成本,选哪种并不是一个简单的决定。这就是关于 trigger、关于 skill 如何被调用的全部内容。
兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。
四、人类判断、组织与协作方式
背景
这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。
所以我觉得有责任帮助使用我的 skill 的用户走出 skill hell。
你先确定是否需要 steps,然后写出这些 steps,再想清楚这些 steps 需要什么参考材料,把它单独放在 skill 里专门用于参考材料的区域。但这里有一个非常重要的约束,这就是第三条建议:我们希望主 skill.md 文件尽可能小。
我不在现场还有一个额外的好处,就是你可以立刻去尝试这些,因为我已经把所有这些内容编码成了我仓库里的一个新 skill,叫做”writing great skills”。如果你有立刻能用到的场景,就去我的 skills 仓库,关掉这个浏览器,出去用这个 skill 来改进你的 skill 或者写全新的好 skill。
兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。
五、Prompt、规格与行为设计
背景
这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。
因为每当你有一个 model invoked skill,你就在承担不可预测性的代价——每当有一个 context pointer 从一个资源指向另一个资源,模型可能就是不去跟进。即使对任务来说这个 skill 完全合适,它也可能就是不调用它。
下一个失败模式在 agent 写你的 skill 时非常常见——no-op。No-op 是指 skill 里那些看起来在做某件事,但实际上在 skill 的 context 范围内对 agent 行为没有任何影响的东西。
这就是关于 steering 的全部内容:用 leading words 把你的意图压缩成简短可复用的 token,同时确保 agent 在每个步骤上投入了正确量的 leg work。现在我们来说 pruning(修剪)。
兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。
整体判断
这篇内容最值得保留的是它把《构建优秀 Agent 技能:缺失的手册》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。