跳到正文
汉松札记
返回

把 10,994 条笔记变成记忆高亮

AI Highlight

来源

把 10,994 条笔记变成记忆高亮

文本来源是 AI Engineer 频道视频《把 10,994 条笔记变成记忆》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《把 10,994 条笔记变成记忆》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

理论上,如果你真的想要,你也可以添加它们,但这就是这个新策略的妙处,因为你可以只输入一个主题,我们会找到它需要的一切。然后我们仅将这个主题用作生成查询的上下文的种子。

所以我们还没有添加它们,因为这个项目的核心是对我们有用,对你接管并添加你需要的任何东西。这个项目的另一个主要目标是教授 memory 和 context management。

例如,对于比较,它自动理解需要在形容词 rag 与文件系统或 compaction 与递归语言模型或基于来源的任何感兴趣的东西之间进行比较。最有趣的部分实际上是概念。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

在 wiki 中,我们实际上有由 LLM 创建的衍生物,其中包含多个概念、实体之间的比较,或只是作为我们问题或我们摄取的存储库的反思的简单笔记,我们可以基于一个存储库创建多个笔记,对吧?或者是基于我们的问题的开放问题,LLM 还无法回答。

这意味着对于一个 agent,context window 变成了一切,数据库、文件系统、memory、推理空间。它必须做所有这些,当你停止对话时,它会丢失一切。

所以我们实际上可以理解这些 harness 中的架构差异,或者我们也有从这些仓库中提取的所有概念,我们可以理解这些仓库中的关键架构决策是什么。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

首先,我们需要弄清楚使用哪个工具以及何时使用,因为我们构建的这整个研究系统不是用于每个查询的。如果你只需要一个快速答案,比如几个快速问题或只是你会 Google 的东西。

例如,我实现了 YouTube 视频 transcript,说实话只需要几秒钟,只需一个 prompt。

在 readme 中,你也可以找到关于如何安装所有其他依赖项的详细信息,因为这个系统依赖于 Obsidian、Readwise、notebook elements 等工具。所以你需要设置特定的 CLI 或处理身份验证问题。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

不过,我们有一些我们想很快做的下一步改进,从有更强的 linting 到更好的 memory compaction,因为那是一个大问题,总的来说正确管理 memory 是非常复杂的,最先进的技术总是在那里进步。我们,如我所说,需要更好的 source provenance 来信任来源并能够正确地排列它们,如果需要的话重新使用它们,并能够作为用户快速访问这个来源是否相关。

所以现在,让我们假设我们想要提出一个问题,例如基于从 GitHub 仓库创建的 wiki 的 harness 工程问题。所以我们要做的就是再次点击研究字段指向我们刚刚创建的 wiki,然后只是提出我们的问题。

每个 agent 管理自己的问题,并使用 Gemini grounded in Google 来查询基本上 Google 并收集多个资源,每个 agent 收集这些资源,这返回多个链接并为每个链接创建一些执行摘要。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

所以,现在我想回顾一下我们系统的三个版本以及它如何随时间推进,最重要的是,为什么我们增加了更多的复杂性。所以,在第一个版本中,我们希望将其范围限制在为我们的 agent 工程课程创建课程。

因为我们已经知道它们,我们将它们用作深度研究算法的 context 种子,这是一个非常强大的技术,因为我们对如何框架化我们的问题有了更多的 context。

所以,我们所做的是决定用纯文件构建一个系统,主要是 markdown 文件,我们可以轻松利用它,agent 也可以轻松利用它。我不会在这里详细说明,因为 Paul 会深入讨论。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《把 10,994 条笔记变成记忆》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
手中的 OpenClaw:构建一个实体 AI 终端高亮
下一篇
有失忆症的天才高亮