来源

原始链接：https://www.youtube.com/watch?v=Lc8zRh9muoY
来源类型：视频逐字稿
来源标题：你的 Agent 在生产环境失败了。祝你好运复现它

你的 Agent 在生产环境失败了。祝你好运复现它高亮

文本来源是 AI Engineer 频道视频《你的 Agent 在生产环境失败了。祝你好运复现它》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《你的 Agent 在生产环境失败了。祝你好运复现它》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

确保你找到问题、修复失败，最后把同一条 trace 用作 test case。第五，也是最后一点，保留生成时的变化性。

你已经加载了 trace，并在 Boundary 上启用了 replay mode，这允许 Boundary stub 你想要的任何节点。比如在这个例子里，你想 stub 第一个 agent call，也就是生成 tool output 的那个调用。

在此之上，你还可以定义一些参数，比如 model version 或正在运行的代码版本，这样 agent run 发生时的整个状态就会被冻结，并保存为一条 trace。现在看一下它实际运行的样子。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

我们并不需要模型每次都返回完全相同的 token。我们只需要系统执行完全相同的状态转移。

肯定不是网络层，因为你的 agent 有一半根本不会碰网络：本地 retrieval、进程内 tools、memory，以及那些在 streaming 和 async 下不会被拆散的部分。应该在 boundary 上记录，因为你需要捕获进入每个节点和离开每个节点的东西。

你知道，就是那种一旦写坏了，事情不会只是「哎呀，又搞错了」的地方，而是你要和客户开会，解释数据到底去了哪里。整场分享会围绕一个主题：当 agent 在生产环境里失控时，你第一秒就失去的东西，就是复现它的能力。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

你能做的是在 tools 上放 guardrails，从而对生产环境中的 agent 强制一些可信度约束。

它可以使用 place order tool 来实际买卖股票，最后委托给 finalize agent，为最终用户生成一个简洁回应。我们给这三个 method 都加上了 boundary annotation。

所以，这就是把 replayability traces 与自动生成测试、stubbing 和 assertions 合并在一起的力量。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

按照标准工程反应，你的直觉会告诉你：从 telemetry 日志里拉出原始 prompt，用同一个 prompt 调同一个模型，在本地运行，以便隔离 bug。我们都会这么做。

我们已经确认，replayability 是把任何 AI agent 产品化的核心原则。但在代码里要怎么构建它？

你无法从托管 API 得到它，而且你其实也不想要它，因为随机性正是模型有用的原因。比如当模型探索更多时，你会得到更有创造性的答案。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

相同 prompt 跑一千次，仍然可能因为底层 GPU 的非确定性和现有的 MOE 架构，返回几十种完全不同的响应。

这里的本能反应通常是：把模型 temperature 直接降到绝对零，假设 greedy decoding 会让一切 deterministic，对吧？但这是一个彻底的误解。

现在，假设你已经在 tool 层修复了代码，但你希望其余节点都被 stub 掉，这样整个 exact stack trace 保持不变。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《你的 Agent 在生产环境失败了。祝你好运复现它》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。