跳到正文
汉松札记
返回

100 工具 Agent 是个陷阱高亮

AI Highlight

来源

100 工具 Agent 是个陷阱高亮

文本来源是 AI Engineer 频道视频《100 工具 Agent 是个陷阱》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《100 工具 Agent 是个陷阱》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

目标不是让 agent 变得更复杂,而是停止强迫模型在不相关的工具上浪费推理。

首先你需要遍历工具目录,像 Ankush 提到的那样,对每个工具嵌入描述,将其连同工具名称和其他详情存入向量数据库。

另一个问题是延迟:胖 agent 方式下,由于模型必须处理更大的 prompt 才能回答用户问题,time to first token(首 token 时间)会随工具目录的增长而不断增加。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

如果你已有 RAG 基础设施,这不是新的基础设施,而是把同样的检索模式应用在工具选择上。

如果你之前搭建过 RAG 系统,这会很熟悉,区别在于我们检索的是工具而不是文档。第一步:每个工具都有一个清晰的描述,比如”搜索航班”工具、“查询日历可用性”工具、“获取客户订单状态”工具。

这就是完整的模式:第一步,离线索引工具描述;第二步,运行时检索相关工具,保持模型上下文专注。简而言之,semantic routing 就是工具版的 RAG。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

路由通常在工具目录足够大、prompt 大小、延迟或工具混淆成为真正的生产问题时才值得引入。

但如果我们加载全部 200 个工具,酒店工具、天气工具、邮件工具、SQL 工具,或者任何不相关的工作流工具都会争夺模型的注意力,这就是模型开始选错函数的时候。

第二,token 既是成本也是延迟:大型工具目录在处理用户实际请求之前就可能消耗数万个 token,semantic routing 可以解决这个问题,让模型只看到当前查询相关的工具。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

胖 agent 设计里,每次请求都加载所有 schema,不管用户问了什么,目录增长导致 prompt 增长,延迟上升,准确率下降。

最简单的做法是把所有工具定义都传给模型,每次请求都把所有函数名、描述、JSON schema 全塞进 prompt,不管用户是否真的需要。

但在 semantic routing 设计中,agent 不是从所有工具开始的:router 先分析用户的查询,检索出 3 到 5 个最相关的工具,然后只把这些工具注入到模型调用中。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

这是 benchmark 的核心结论:目录可以增长,但模型的工作集应该保持小巧。

第二个风险是工具描述质量差:描述写得不好,嵌入也会不好,要用用户实际使用的语言来写描述,包含意图、动作和关键实体。

当数百个工具 schema 被塞进上下文中间时,模型无法可靠地使用它们。结果是我们为一个巨大的 prompt 付出了代价,而这个 prompt 反而让决策更难。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《100 工具 Agent 是个陷阱》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


下一篇
Agent 构建 Agent 高亮