跳到正文
汉松札记
返回

Anthropic 前沿 Agent 记忆系统与 Dreaming 机制高亮

AI Highlight

来源

Anthropic 前沿 Agent 记忆系统与 Dreaming 机制高亮

文本来源是 24 分钟 YouTube 演讲逐字稿。主讲人 Mahes 是 Anthropic 平台团队产品经理,过去参与 MCP 和 Skills 等 primitives,本次分享的重点是 Managed Agents API 里的 memory 与新发布的 Dreaming。按汉松兴趣画像,以下高亮优先保留机制解释、反常识判断和可迁移到 Hermes、团队研发、多 Agent 系统的 workflow。

一、Memory 是 MCP 和 Skills 之后的下一个 Agent primitive

背景

Mahes 把 Anthropic 这一年多的产品演进放在一条清晰链路里:MCP 给 Agent 外部工具和数据,Claude Code 与 Agent SDK 提供执行 harness,Skills 让 Agent 获得可复用能力。Memory 解决的是更长周期的问题:Agent 如何从自身经验、任务结果和其他 Agent 的行为中持续学习。

MCP 让 Agent 能访问外部工具和数据;Skills 让 Agent 获得人类或其他 Agent 设计的新能力。每一个 primitive 都让 Agent 能做更长时间、更复杂的事情,但持续自学习和长周期上下文管理仍然没有解决。

Memory 是下一个 primitive。它会让 Agent 基于正在做的任务和自己的经验演化,逐步变成能自我学习的系统。

Agent 可以记住任务的成功标准、常见错误、有效或无效的策略,也可以记住它所在环境里的代码库、文件、资产,并从同一环境里的其他 Agent 学习。

兴趣匹配度很高。这里的关键不是 Anthropic 又发布了一个功能,而是 Agent primitive 的演化顺序:工具接入、能力封装、经验积累。对个人 AI 系统来说,这意味着 memory 不是聊天记录的别名,而是 Agent 从一次性执行器进入长期协作者的必要层。

二、前沿 Agent 的记忆应该像文件系统,而不是像固定 schema

背景

这段最值得抓。Anthropic 早期也做过更受限的记忆形式,例如 Claude Code 里的 CLAUDE.md,或 SDK 里参数明确的 memory tool。但模型能力提升之后,他们选择少约束,让 Claude 自己管理一个层级化的文件系统式记忆。

随着 Agent 变强,我们尝试越来越少地挡在 Claude 前面,把更多决策交给 Claude,而不是过度约束 harness 的设计。

Managed Agents 里的 memory 被建模为 Claude 可见的文件系统:一系列有层级和格式的文件。Claude 可以自己管理和更新这些文件。

Claude 可以用熟悉的 bash 和 grep 工具更新、组织记忆,并在任务推进过程中持续修改它。

Opus 4.7 在基于文件系统的记忆上达到了最先进水平:它更擅长判断什么值得记住,如何组织结构,应该把记忆拆成多少个文件。

兴趣匹配度很高。这和汉松长期关心的上下文工程直接重合:好的 memory 设计可能不是先定义复杂数据库 schema,而是给模型一个可操作、可整理、可审计的外部工作空间。文件系统在这里不是低级实现,而是一种把模型已有 agentic coding 能力迁移到记忆管理上的接口选择。

三、组织级多 Agent 记忆的核心问题是权限、并发和审计

背景

当 Agent 从单会话扩展到企业级并发,memory 就从个人便签变成共享状态系统。Mahes 提到 Anthropic 和客户场景里已经出现数百甚至数千个 Agent 同时运行。此时真正困难的不是把内容存下来,而是哪些 Agent 能读写、如何避免覆盖、如何追溯责任。

企业里会有数百甚至数千个 Agent 并行运行,它们访问同一组共享状态和共享记忆。

一个 Agent 可以对某个 memory store 只有只读权限,例如组织级最佳实践或 runbook;同时对另一个 memory store 有读写权限,用来维护更具体、更频繁更新的工作记忆。

如果几百上千个 Agent 同时读写同一份记忆,系统必须保证它们不会互相覆盖。Anthropic 采用乐观并发,用内容哈希检查一次更新是否会覆盖另一个 Agent 的更新。

生产环境还需要完整版本历史、归因元数据、更新时间、更新 Agent、会话来源,以及可独立使用的 API,方便企业做 PII 扫描、清理、复制和外部治理。

兴趣匹配度很高。这一组可以直接转成 Agent 平台架构 checklist:scope、permission、concurrency、version history、attribution、standalone API。它也说明 memory 一旦进入生产,就同时是认知系统和治理系统,不能只从召回效果角度设计。

四、Dreaming 是把学习目标从任务热路径里拆出来

背景

Memory API 解决单个 Agent 实时读写,但它仍然受限于单个任务视角。Dreaming 的关键设计是 out-of-band:它在任务之外批处理最近的 Agent transcript,寻找跨会话的错误、有效策略和可沉淀模式,再把结果更新回 memory store。

Dreaming 会查看最近 Agent 会话和 transcript 中的模式与错误,并自动生成组织好的、保持更新的记忆内容。

它可以按周期运行,也可以在 Agent 完成任务并退出时触发。它会综合查看近期 transcript,找出共同错误、失败的工具调用、有效策略,以及值得更新 memory 的机会。

Dreaming 的目标是持续自学习和自我改进,让第二天的 Agent 自动从前一天的经验中变得更好。

Dreaming 发生在任务会话之外。这样它既适合多 Agent 系统,也把 memory quality 这个目标从 task completion 里分离出来,不给任务热路径增加延迟。

兴趣匹配度极高。这是一个很清楚的系统设计原则:让执行 Agent 专注完成任务,让另一个后台过程负责整理经验、验证记忆、合并重复项、删除过期信息。对 Hermes 或团队研发来说,Dreaming 可以对应一次 nightly retrospective:从所有执行轨迹中提炼 procedure、pitfall 和更新后的团队 runbook。

五、Dreaming 用额外 compute 换取更干净的共享知识库

背景

Mahes 把 Dreaming 类比为 test-time compute 和搜索索引。这两个类比很关键:前者说明额外 token 可以用于提升最终结果,后者说明先花计算维护高质量索引,能让后续检索和执行更高效。

现在大多数 memory 部署仍然局限在特定用户、特定任务或小团队。但 Agent 系统正在快速到企业规模,memory store 会逐步变成大型知识库。

Dreaming 让 Claude 花更多 token 和努力来保持记忆系统有组织、最新、可用。这类似思考模型里的 test-time compute:给模型更多探索和尝试空间,会得到更好的最终任务结果。

也可以把它看作搜索系统:先投入努力生成高质量且最新的索引,之后在检索时就能高效拿到最新结果。

Dreaming 把这部分整理成本摊销到所有后续读取 memory store 的 Agent 身上。

兴趣匹配度很高。这个视角比普通 memory 讨论更深:记忆整理不是附属维护,而是一种 compute allocation 策略。系统可以在离线时段花 token 清理、归纳、验证,让在线 Agent 获得更低延迟、更少 token、更高质量的上下文。

六、Demo 里的 SRE 场景展示了 Agent memory 的生产形态

背景

演示场景是 SRE Agent 响应告警。它体现了 memory 的两个层次:实时任务中避免重复调查,Dreaming 之后发现单个 Agent 看不到的跨会话模式。

第一个 SRE Agent 收到 dispatch service 的 P1 告警后,调查 CPU 利用率、流量模式和最近部署的 PR,并把发现写入 SRE memory store。

几分钟后同一个告警再次触发,另一个 SRE Agent 读取同一份 memory,看到之前已经调查过什么、发现了什么,以及如何缩短排查路径,于是节省了大量重复调查时间。

Dreaming 查看过去 7 天触达这个 memory store 的所有会话,发现多个 Agent 都在上游 CPU 峰值 60 秒后被触发。单个 Agent 看不到这种跨会话模式,但 Dreaming 能把它识别为可能的低效重试逻辑。

Dreaming 还会去重,把五条重复记忆合并成一条;删除 transcript 中显示已经失效的条目;补充验证说明,指出某份记忆在某个时间点被 transcript 证实仍然准确。

兴趣匹配度很高。这个例子把 memory 从概念落到了工程闭环:observe、write memory、reuse memory、cross-session pattern mining、dedupe、stale cleanup、verification backfill。它适合直接迁移到研发团队里的事故响应、CI 修复、线上问题排查和代码库维护。

整体判断

这场分享的价值在于,它把 Agent memory 从模糊的长期记忆概念,推进成一套生产系统设计:文件系统式可操作记忆、多 store 权限模型、乐观并发、版本历史、归因、独立 API,以及任务外的 Dreaming 整理过程。对汉松最有启发的点是:长期 Agent 系统的瓶颈会从单次推理能力迁移到经验能否被可靠沉淀、共享、治理和复用。Memory 让 Agent 记住,Dreaming 让组织学会。


订阅 AI Highlight

分享这篇文章:


下一篇
对话姚顺宇:从理论物理到 AI 的跨界探索与行业洞察