来源

原始链接：https://www.youtube.com/watch?v=dRmWYHuIJxM
来源类型：视频逐字稿
来源标题：我们用本地代码索引减少了 94% 的 AI Coding Token

我们用本地代码索引减少了 94% 的 AI Coding Token 高亮

文本来源是 AI Engineer 频道视频《我们用本地代码索引减少了 94% 的 AI Coding Token》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《我们用本地代码索引减少了 94% 的 AI Coding Token》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

不使用我们的工具时，每个问题需要 83K tokens。使用我们的工具后，每个问题需要 4.9K tokens。

因为模型在读到 prompt 之前，就已经拿到了 45,000 tokens，成本已经发生了。第二，我们改模型设置，比如 max token、temperature。

下一次 session，即使换了另一个工具、还是同一个项目，context 已经在那里了。我们只解释一次 codebase。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

我们测量了自己项目上的一次典型查询，它会发送 45,000 tokens 的 context，但真正有用的部分大约只有 5,000 tokens。剩下的 40,000 tokens 没有什么用，可是每一次查询我们都要为它们付钱。

AI 不再发送整个文件，而是搜索索引，只拿回它真正需要的一小段代码。它的工作方式分五步。

大部分钱并不是花在 AI 的思考上，而是花在发送了太多 context 上。很多文件其实 AI 并不需要。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

我和朋友 Foss 正在一起做一个项目，我们每天都在使用 AI coding tools，比如 Claude Code、Cursor、Copilot、Codex，这些常见工具。有一个月，我们的 AI 账单还算正常。

我们会用很多工具：Claude Code 处理难题，Cursor 做快速编辑，Copilot 做小补全。每个工具每次都会从零开始，它们之间不共享任何东西。

这是真实项目上的节省报告：247 次查询，节省了 1,240 万 tokens，接近 186 美元没有花出去。大部分节省，84%，来自 search layer。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

如果再叠加额外压缩，每个问题只需要 523 tokens。而准确率仍然可以在 90% 的情况下找到正确代码。

答案不是更好的模型，而是发送更少的东西。我们经常争论哪个模型最好，Opus 还是 Sonnet。

第三步，我们还能进一步缩小结果，只保留 function name 和 description，把一个 50 行的 function 压缩成 5 行。第四步，我们追踪连接关系，也就是哪个 function 调用了哪个 function。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

所以，一个小数字的 75% 仍然是小数字，不够。我们需要修正 input。

修正 input 之后，模型选择的重要性会比你想的更低。可以用一个命令试试：CCE。

在真实生活里，Claude Code 这类工具已经比这更聪明，所以实际节省会低于 94%。我们使用完整文件基线，是因为这是唯一一种每次都能用相同方式测量的方法。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《我们用本地代码索引减少了 94% 的 AI Coding Token》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。