来源

原始链接：https://www.youtube.com/watch?v=vh2VGuQ3zhY
来源类型：视频逐字稿
来源标题：100 工具 Agent 是个陷阱

100 工具 Agent 是个陷阱高亮

文本来源是 AI Engineer 频道视频《100 工具 Agent 是个陷阱》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《100 工具 Agent 是个陷阱》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

目标不是让 agent 变得更复杂，而是停止强迫模型在不相关的工具上浪费推理。

首先你需要遍历工具目录，像 Ankush 提到的那样，对每个工具嵌入描述，将其连同工具名称和其他详情存入向量数据库。

另一个问题是延迟：胖 agent 方式下，由于模型必须处理更大的 prompt 才能回答用户问题，time to first token（首 token 时间）会随工具目录的增长而不断增加。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

如果你已有 RAG 基础设施，这不是新的基础设施，而是把同样的检索模式应用在工具选择上。

如果你之前搭建过 RAG 系统，这会很熟悉，区别在于我们检索的是工具而不是文档。第一步：每个工具都有一个清晰的描述，比如”搜索航班”工具、“查询日历可用性”工具、“获取客户订单状态”工具。

这就是完整的模式：第一步，离线索引工具描述；第二步，运行时检索相关工具，保持模型上下文专注。简而言之，semantic routing 就是工具版的 RAG。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

路由通常在工具目录足够大、prompt 大小、延迟或工具混淆成为真正的生产问题时才值得引入。

但如果我们加载全部 200 个工具，酒店工具、天气工具、邮件工具、SQL 工具，或者任何不相关的工作流工具都会争夺模型的注意力，这就是模型开始选错函数的时候。

第二，token 既是成本也是延迟：大型工具目录在处理用户实际请求之前就可能消耗数万个 token，semantic routing 可以解决这个问题，让模型只看到当前查询相关的工具。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

胖 agent 设计里，每次请求都加载所有 schema，不管用户问了什么，目录增长导致 prompt 增长，延迟上升，准确率下降。

最简单的做法是把所有工具定义都传给模型，每次请求都把所有函数名、描述、JSON schema 全塞进 prompt，不管用户是否真的需要。

但在 semantic routing 设计中，agent 不是从所有工具开始的：router 先分析用户的查询，检索出 3 到 5 个最相关的工具，然后只把这些工具注入到模型调用中。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

这是 benchmark 的核心结论：目录可以增长，但模型的工作集应该保持小巧。

第二个风险是工具描述质量差：描述写得不好，嵌入也会不好，要用用户实际使用的语言来写描述，包含意图、动作和关键实体。

当数百个工具 schema 被塞进上下文中间时，模型无法可靠地使用它们。结果是我们为一个巨大的 prompt 付出了代价，而这个 prompt 反而让决策更难。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《100 工具 Agent 是个陷阱》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。