来源

原始链接：https://www.youtube.com/watch?v=ij-AU9dpJjc
来源类型：视频逐字稿
来源标题：别再写语气指令了。要分层组织它们

别再写语气指令了。要分层组织它们高亮

文本来源是 AI Engineer 频道视频《别再写语气指令了。要分层组织它们》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《别再写语气指令了。要分层组织它们》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

四层模式不是我试图推销的框架，它是一个 system prompt 失败足够多次之后自然产生的结果，而它一定会失败。prompt 最终会失败，唯一的问题是你是在基础设施测试中发现这一点，还是在客户面前发现。

它必须大声失败，因为静默失败意味着一个场地在用陌生人的声音说话，而接收端的用户不知道为什么感觉哪里不对，他们只是感觉到了，信任就在你的团队意识到有问题之前悄悄侵蚀。如果你只从这次演讲中带走一件事，请带走这个：前三层都是指令——身份、条件和语气，都是你告诉模型的事情，模型通常会听。

预防是 prompt 的工作，否决是检查，你两者都需要，因为 prompt 最终会失败，而你不想通过读到情侣的回复才发现它失败了。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

一个地方查看上下文，然后说”这是用户是谁，这是他们正在经历什么，这是路线”。软性标记的拒绝不是一个模型。

这不是示例的失败，而是一个兜底错误。示例不是用来做保证的工具，它们从来就不是为此设计的。

它一再失败的原因，不是示例写得不好，而是你在让一个 prompt 同时完成四项完全不同的工作。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

对于失踪人员工具，第一层阻止 AI 告诉一个人他们的亲人已经被找到，而系统实际上只是发现了一些存疑的内容。

在这套架构出现之前，我的系统里有 24 个不同的 system prompt 散落在代码库各处，有几个叫 Sage，有叫 Less 的，有叫 Venue 的。每个界面都有自己对”我是谁”的理解。

对于大多数工程团队来说，工作在这里结束，因为它感觉像是品牌问题，而不是技术问题。市场部的人负责语气指南，把它交给工程师，工程师接入进去，完事。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

这一层编码的是无论你的品牌想听起来多么温暖都必须成立的事情——不是因为合规清单，而是因为你的用户并不愚蠢，把他们当傻瓜对待永远会适得其反。我的跨产品验证来自同一套架构，但应用在完全不同的场景中。

从通用规则文件来看，硬性身份规则不能被任何场地语气、个人设定或用户指令覆盖。如果对话对象问你是否是真人、人类、在线客服、机器人或 AI，你必须在下一条消息中明确、毫不含糊地确认你是 AI 助手。

Bloom 旗下的每一个 AI 都会在第一条回复中就披露自己是 AI——不是等被问到才说，而是在被问之前就说。这是产品决策，不是法律要求。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

它是自动化的、廉价的，也是整个架构中唯一不是 prompt 的部分。前三层都是指令，指令是一种请求。

如果颠倒顺序，文字会显得机械生硬，因为模型在读到定性语气素材之前就已经锁定了数字框架。

这从来就不只是关于品牌语气，而是关于当你让一个机制同时完成四项本质不同的工作时会发生什么。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《别再写语气指令了。要分层组织它们》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。