跳到正文
汉松札记
返回

当所有上下文都重要:扩展型缓存增强生成高亮

AI Highlight

来源

当所有上下文都重要:扩展型缓存增强生成高亮

文本来源是 AI Engineer 频道视频《当所有上下文都重要:扩展型缓存增强生成》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《当所有上下文都重要:扩展型缓存增强生成》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

然后我们只需要某个东西,把正确的问题问给正确的 bucket。为此,我们可以使用一个更聪明的模型来 interrogate 每个 bucket,并最终综合出答案。

如果你的文档集合不经常变化,GraphRAG 是一种很好的方法,可以找到细节之间的关系,从而回答用户问题。不过,我们这个非常具体的场景规定:数据不仅高度互联,而且会非常频繁地被替换。

所以我们没法只是从集合中取一部分文档传给 LLM。这只是这种方法的诸多限制之一。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

这个方法看起来会像 Cache Augmented Generation(CAG):我们使用一个拥有大 context window 的模型,把文档加载进 context,并通过存储模型的 KV matrix 来缓存这个 context。

假设我们有大量文档,每一份文档都代表一个事件,而且这个集合里的所有文档都与回答用户的一组问题相关。不仅如此,还有另一个挑战。

但在实践中,当文档之间的关系非常密集时,supervisor 往往会忽略那些第一眼看上去不相关的 domain。出于这个原因,所有文档会以没有特定顺序的方式分发。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

为此,我们只需要一个 vector database 和一个 embedding model。embedding model 会接收文档,并把它们转换成一种学习得到的数值表示,也就是 vector。

GraphRAG 有很多步骤,但基本上,它会使用 LLM 读完所有文档,并抽取关键 entity 以及它们之间的 relationship。

由于所有 cache 都可以并行加载,这个知识构建过程会明显快于 GraphRAG,同时又能提供比简单 RAG 更准确的答案。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

整体判断

这篇内容最值得保留的是它把《当所有上下文都重要:扩展型缓存增强生成》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
在生产工作流中使用规格驱动开发高亮
下一篇
我们用本地代码索引减少了 94% 的 AI Coding Token 高亮