来源
- 原始链接:https://www.youtube.com/watch?v=JRTAtZ5iBkU
- 来源类型:视频逐字稿
- 来源标题:HTML 就够了:让 Agent 生成图形
HTML 就够了:让 Agent 生成图形高亮
文本来源是 AI Engineer 频道视频《HTML 就够了:让 Agent 生成图形》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。
一、评估、反馈与故障闭环
背景
这组高亮抓住《HTML 就够了:让 Agent 生成图形》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。
你需要按照 AI 的思维方式给它工具,不是基于像素,而是基于语言。词语、token、结构,才是它的原生媒介。
[音乐] 关键只有一个:你必须能像 agent 一样思考,才能让它做你想让它做的事。[音乐] 今天我们要讨论的是,我们如何用 coding agent 做一件大多数人认为 agent 很不擅长的事情:制作视觉产物,比如幻灯片、文档,[音乐] 甚至视频。
在我看来,问题不是模型,而是媒介。如果我让你,一个大概率是人类的人,手写一份骑自行车鹈鹕的 SVG,你也做不到。
兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。
二、上下文、记忆与检索边界
背景
这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。
我们用这个 HTML 技巧来构建所有 slide deck、board deck 和 sales deck。[音乐] 这些都是真实的材料,我们确实经常对外展示和发送。
其中大部分时间并不是花在思考上,而是花在各种细节调整上。[音乐] 一个需要 10 小时完成的 deck,如果去掉所有格式、品牌规范和来回挪动元素的工作,其实应该只需要大约 25 分钟。
[音乐] 我们部署了一个 AI employee,它能理解你的公司、代码、文档、Slack 以及其他类型的数据。我们花了很多时间思考 coding agent 到底是怎么工作的。
兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。
三、工具、系统与工程约束
背景
这组摘录偏工程实现。它关心的不是模型能力的抽象上限,而是工具、接口、基础设施和生产约束如何决定 Agent 最终能不能稳定工作。
如果你把数据访问权限给模型,比如你的通话转写稿或邮件,你就可以让模型端到端构建 deck。让你的 agent 做掉所有繁重杂活,而你专注在愿景和故事上。
[音乐] 所以你完全可以选择 agent 已经擅长的编辑格式,也就是 HTML。如果后续需要渲染成 PDF 这样的其他格式,也可以再处理。
他会对每个新模型问同一个问题:你能画一只骑自行车的鹈鹕吗?但这里有个限制:agent 只能使用 SVG。
兴趣匹配度高。这里能迁移到实际团队建设:工具选择、数据流、权限、成本、延迟和部署形态,往往比单点模型参数更能决定系统上限。
四、人类判断、组织与协作方式
背景
这部分把人放回系统设计里。Agent 越强,越需要人类承担领域判断、目标选择、风险边界和协作组织,而不是把全部责任交给模型。
如果你只带走一个 takeaway,那就是这句:停止像用户一样思考,开始像模型一样思考。给它正确的语言;而对于图形来说,你需要的全部就是 HTML。
所以我一直以为 slide deck 和 PowerPoint 这两件事是同义词。[音乐] 但这其实并不是真的,对吧?
纯文本是一种选择,通常是为了方便而做的选择;但如果你真的想创造有用的东西,它通常不是正确选择。这里我想快速强调一下:一个漂亮的 deck 单独来看通常没有什么价值。
兴趣匹配度高。它符合汉松的人机共生框架:AI 承担生成和探索,人类承担判断、责任、品味和组织设计,把人的稀缺性放在更高杠杆的位置。
整体判断
这篇内容最值得保留的是它把《HTML 就够了:让 Agent 生成图形》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、工具、系统与工程约束。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。