跳到正文
汉松札记
返回

面向非确定性 AI Agent 的确定性基础设施高亮

AI Highlight

来源

面向非确定性 AI Agent 的确定性基础设施高亮

文本来源是 AI Engineer 频道视频《面向非确定性 AI Agent 的确定性基础设施》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《面向非确定性 AI Agent 的确定性基础设施》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

一旦多个 agent 共享状态,熟悉的分布式系统问题就会出现:stale read、conflicting update、context drift、inconsistent view。当 memory 本身又可能是概率性的、基于 retrieval 的时候,挑战会变得更难。

我们需要 trace 来捕捉 planning decision、tool call、memory lookup、state transition。在调试 autonomous workflow 时,理解决策链和推理链往往比最终输出更重要。

但生产系统的目标不同:它能可靠地做到吗?它能做 1 万次、10 万次、100 万次吗?

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

Inference 不再只是一个模型问题,而是一个 resource orchestration problem。好消息是,这些问题中很多并不完全是新问题。

这种分离让我们即使在底层模型仍然是概率性的情况下,也能构建可靠系统。正如我们知道的,container 催生了 Kubernetes,microservice 催生了 service mesh。

大部分工程工作会下移到模型层之下,进入 orchestration、monitoring、safety evaluation 和 recovery system。当人们听到 AI failure 时,第一反应通常是 hallucination。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

在 Meta 以及整个行业里,我们看到 agent 正在超越回答问题,开始规划、调用 tool call、协同 workflow,并做出会影响生产系统的决策。这些系统本质上是概率性的,但基础设施不能是概率性的。

我最强烈推荐的架构原则是:永远不要让模型直接控制生产系统。模型应该生成 proposal,基础设施负责 validate,policy engine 负责 approve,execution gateway 负责 enforce。

如果有一件事希望你记住,那就是:AI agent 应该被当作分布式系统来对待。模型是 stochastic 的,基础设施必须是 deterministic 的。

兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。

目标不是移除人类,而是把人的注意力分配到最能产生价值的位置。因此,最大的基础设施变化之一是,AI workload 越来越像 cluster scheduling problem。

最终获胜的组织不一定拥有最好的 prompt,它们会拥有最可靠的系统。竞争优势正在向 stack 的上层迁移。

但当组织从 chatbot 走向 autonomous agent 时,另一个问题开始浮现。挑战已经不再只是智能本身。

兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语,而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

它必须分层实现:prompt level control、tool permission、policy validation、human approval、audit system。这些层中的每一层都会捕捉不同类别的故障。

正如这页 slide 所展示的,这是分布式系统工程师很可能立刻认出的模式:一个 agent 错误地调用了某个 tool,tool 返回错误。agent 没有恢复,反而生成了一个略有不同但依然无效的请求。

然而,autonomous AI agent 几乎违背了所有这些假设。它们是有状态的。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题,适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《面向非确定性 AI Agent 的确定性基础设施》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
面向金融合规的 AI 多文档关联分析高亮
下一篇
Community Wisdom 191:动力、流程和增长角色的真实约束