来源

原始链接：https://www.youtube.com/watch?v=ZD9-4fW2HhM
来源类型：视频逐字稿
来源标题：构建系统，而不是代码

构建系统，而不是代码高亮

文本来源是 AI Engineer 频道视频《构建系统，而不是代码》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《构建系统，而不是代码》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

“它真的能查到，因为评分和通勤时间存放在已知的位置，而不是困在某个 session 对话里。不只是我需要这些信息，系统内部的候选名单环节也会在没有人工介入的情况下读取这些字段。

这样任何人，无论是人还是 agent，进入系统都能快速定向，而不需要逆向工程一堆 prompt。事实上，这才是真正的测试：我设计我的 agent，让它即使在全新的上下文中，也能直接进入系统，冷启动，然后知道该做什么。

Agentic 系统同样需要这种设计。不管我们有多喜欢”/goal”这个命令，agent 需要的不只是目标，它需要一条路径。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

那个系统包含文件、工具、人，甚至其他 agent。所以 Relocation Scout 存在于一个更大的体系之中，它拉取房源列表和社区信号，把它们与我关心的因素进行权衡，然后返回一份排名后的候选名单。

一个 prompt 可以跑一次就结束，但一个有用的 agentic 系统必须能在混乱的现实中运作：webhook 被触发了两次，某次运行没有完成，你需要重试整个流程。

但当另一个系统需要根据 agent 的输出采取行动时，你最好有一份契约（contract）。我们在软件里到处都在这么做：任何两个系统通信时，它们之间都有一个约定好的数据形态。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

每当我需要修改系统时，我基本上可以拿起任何一个入口说：“把这个 agent 更新成做 XYZ。“因为系统设计得足够好，它成功完成这个更新的概率要高得多。

所以下次再运行，agent 只是补全缺失的部分，而不是制造一片混乱。威胁建模（threat modeling）在设计 agentic 系统时是一项非常重要的技能。

制作一个用于标准化房源的 skill，在你需要扩展 agent 职责时会非常方便。比如，如果我把房源搜索范围扩展到三个城市？

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

我们仍然需要理解系统，定义工作流并知道流入的是什么，仍然需要分解问题并把职责放在正确的位置，让该复用的东西可复用，判断哪个执行者最适合哪个任务，定义契约，管理状态，为安全做设计，让系统可以被理解。

算法思维（algorithmic thinking）是 agentic 系统设计中最重要的技能之一。agent 能做某件事，不代表它应该做。

这正是我不让我的 coding agent 来设计我的其他 agent 的主要原因之一，因为我知道它会拼凑出一个技术上能跑、但不可维护的系统。很可能有一个巨型 prompt，即使 agent 做了分解，我也不确定它会把关注点分离得恰当。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

五、Prompt、规格与行为设计

背景

这里的重点是行为设计。Prompt 不是一句魔法咒语，而是一套分层约束、规格、角色、语气和上下文组合出来的系统界面。

忽视这个区别，是我看到很多 agentic 系统变得比以前更复杂的根源。你用模型处理每一个任务环节，然后当输出每天都不一样时感到沮丧。

我们需要把这些都视为不可信输入，并向 agent 明确说明：这是证据，不是指令。

但 agent 在这里加了一个陷阱：你无法完全信任模型，因为它的输出会变化。重试时，agent 可能会把请求稍微换个说法，让它看起来像一个全新的任务。

兴趣匹配度很高。它把 prompt 从技巧提升为系统设计问题，适合沉淀到汉松的 AI 协作和 agent workflow 方法论里。

整体判断

这篇内容最值得保留的是它把《构建系统，而不是代码》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。