来源

原始链接：https://www.youtube.com/watch?v=JRTAtZ5iBkU
来源类型：视频逐字稿
来源标题：HTML 就够了：让 Agent 生成图形

HTML 就够了：让 Agent 生成图形高亮

文本来源是 AI Engineer 频道视频《HTML 就够了：让 Agent 生成图形》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《HTML 就够了：让 Agent 生成图形》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

你需要按照 AI 的思维方式给它工具，不是基于像素，而是基于语言。词语、token、结构，才是它的原生媒介。

[音乐] 关键只有一个：你必须能像 agent 一样思考，才能让它做你想让它做的事。[音乐] 今天我们要讨论的是，我们如何用 coding agent 做一件大多数人认为 agent 很不擅长的事情：制作视觉产物，比如幻灯片、文档，[音乐] 甚至视频。

在我看来，问题不是模型，而是媒介。如果我让你，一个大概率是人类的人，手写一份骑自行车鹈鹕的 SVG，你也做不到。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

我们用这个 HTML 技巧来构建所有 slide deck、board deck 和 sales deck。[音乐] 这些都是真实的材料，我们确实经常对外展示和发送。

其中大部分时间并不是花在思考上，而是花在各种细节调整上。[音乐] 一个需要 10 小时完成的 deck，如果去掉所有格式、品牌规范和来回挪动元素的工作，其实应该只需要大约 25 分钟。

[音乐] 我们部署了一个 AI employee，它能理解你的公司、代码、文档、Slack 以及其他类型的数据。我们花了很多时间思考 coding agent 到底是怎么工作的。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、工具、系统与工程约束

背景

这组摘录偏工程实现。它关心的不是模型能力的抽象上限，而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。

如果你把数据访问权限给模型，比如你的通话转写稿或邮件，你就可以让模型端到端构建 deck。让你的 agent 做掉所有繁重杂活，而你专注在愿景和故事上。

[音乐] 所以你完全可以选择 agent 已经擅长的编辑格式，也就是 HTML。如果后续需要渲染成 PDF 这样的其他格式，也可以再处理。

他会对每个新模型问同一个问题：你能画一只骑自行车的鹈鹕吗？但这里有个限制：agent 只能使用 SVG。

兴趣匹配度高。这里能迁移到实际团队建设：工具选择、数据流、权限、成本、延迟和部署形态，往往比单点模型参数更能决定系统上限。

四、人类判断、组织与协作方式

背景

这部分把人放回系统设计里。Agent 越强，越需要人类承担领域判断、目标选择、风险边界和协作组织，而不是把全部责任交给模型。

如果你只带走一个 takeaway，那就是这句：停止像用户一样思考，开始像模型一样思考。给它正确的语言；而对于图形来说，你需要的全部就是 HTML。

所以我一直以为 slide deck 和 PowerPoint 这两件事是同义词。[音乐] 但这其实并不是真的，对吧？

纯文本是一种选择，通常是为了方便而做的选择；但如果你真的想创造有用的东西，它通常不是正确选择。这里我想快速强调一下：一个漂亮的 deck 单独来看通常没有什么价值。

兴趣匹配度高。它符合汉松的人机共生框架：AI 承担生成和探索，人类承担判断、责任、品味和组织设计，把人的稀缺性放在更高杠杆的位置。

整体判断

这篇内容最值得保留的是它把《HTML 就够了：让 Agent 生成图形》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。