跳到正文
汉松札记
返回

有失忆症的天才高亮

AI Highlight

来源

有失忆症的天才高亮

文本来源是 AI Engineer 频道视频《有失忆症的天才》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《有失忆症的天才》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

因为我们捕获了你的工作——无论涉及多少个 repo——我们记录了你的意图、涉及的 repo、PR,我们还捕获了所有 agent traces。因为我们捕获了这一切,我们就能把它们关联起来。

记住,Polygraph 不是 agent,它是包裹 agent 的元框架,让 agent 更有能力。稍后 agent 就会启动,我就可以像在单个 repo 里一样与它交互,尽管实际上涉及了多个 repo,我可以给它指令。

我更喜欢这种方式而不是 context seven 之类的,因为有了真实代码,agent 可以真正深入研究,深层问题也能通过这种方式被发现。好,总结一下:agents 在空间和时间上都受到限制——只能看到代码库的一小部分,也不知道过去发生了什么。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

我可以工作,他可以工作,我们可以共享各自的记忆,即便我们用的是不同机器上的不同 agent。我的整个 session 的完整状态可以在他的机器上实体化。

因为它跨越了开发者边界——不是每个开发者单独的记忆——agent 可以拥有比任何单个开发者都更多的 context。如果一个组织有一千名工程师创造了所有这些 session,这些 session 对他们每个人都是可访问的。

第二类问题是 agent 会遗忘。agent 没有 episodic memory,每个 session 都是白纸一张,人类在这种情况下变成了记忆。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

我想改 UI 并把变更传播到整个系统。首先,修改 UI library——比如改了个按钮之类的,这是第一次解释,不可避免,我们必须表达意图。

我聊过的其他组织也有类似方案,所以请从问题和解法的概念层面来看,而不只是看具体工具——虽然这个工具确实很酷。我们构建了一个 agent 无关的元框架,叫做 Polygraph。

agent 每次只能看到和修改一个 repo,永远看不到整个系统——而系统可能有数百甚至数千个 repo。这是问题的空间维度。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

我们得出的第一个想法是:如果一个 GitHub 用户有数千个 repo 的访问权限——一些是自己的,很多是开源的——我们可以分析这些 repo 并提取大量元数据,从而构建一张统一的依赖图谱。

它无法把 UI 变更与 module one 对齐——因为人类没有解释,所以发布了一个有问题的版本。它也无法可靠地引用最佳实践和规范,因为这些往往存在于其他 repo 里。

“它知道,我不需要自己去选,它已经掌握了大量关于当前状态的元数据。我也可以问一些比较宽泛的问题。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

我们又得重新解释一周前的原始变更,以及我们正在看到的这个生产问题。这样,对于本质上是同一个变更,我们解释了七次。

现在我的 agent 就可以深入探索它,弄清楚它是怎么运作的,然后帮我解决自己 repo 里的问题。

顺带一提,这在我想在 session 中途从 Claude 切换到 Codex 时也很有用,比如某个 agent 出问题的时候。回到我之前提到的例子:一个 bug 上了生产。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《有失忆症的天才》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
把 10,994 条笔记变成记忆高亮
下一篇
日志就是 Agent 高亮