来源

原始链接：https://www.youtube.com/watch?v=JnubYCYunk8
来源类型：视频逐字稿
来源标题：浏览器 Agent 需要的不是更好的模型，而是更好的眼睛

浏览器 Agent 需要的不是更好的模型，而是更好的眼睛高亮

文本来源是 AI Engineer 频道视频《浏览器 Agent 需要的不是更好的模型，而是更好的眼睛》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow，而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《浏览器 Agent 需要的不是更好的模型，而是更好的眼睛》里最值得保留的反馈闭环：Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构，而不是一次性把 prompt 写得更漂亮。

所以我的核心 thesis 是：给 agent 一个好用的环境。也就是说，它可以规划长序列，可以弄清楚自己在哪里失败了、发生了什么，并且可以正确规划点击动作。

这个 benchmark 对浏览器 agent 很有意思，因为它要求完成很多事情，需要对任务做很长的序列规划。它实际上暴露了浏览器 agent 为什么这么差。

我的 Markdown 大约是 1,800 个 token，而且相比一张 screenshot 只能看到某一个局部片段，这份 Markdown 可以让你看到整个网站。还有另外几件重要的事是要提供 feedback。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线：把非确定性系统放进可反馈、可回归、可复盘的闭环里，真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于，它把上下文从背景信息变成系统的运行材料：可索引、可缓存、可审计，也可被重新组织。

所以把这些放在一起，我构建的是一种很干净的表示方式，它基本上会压缩网站，而且你可以把它和 screenshot 一起提供。按 token 来说成本很低。

我当时在想，因为这个网站在加拿大，而我对加拿大的这些流程并不是特别熟。

总之，bottom line 是我想让浏览器 agent 更快、更便宜、更可靠，并确保世界上每个人都在使用它们，因为它们能帮你做非常多的事。

兴趣匹配度很高。这是上下文工程的核心问题：不是给模型更多字，而是让模型在正确边界内获得正确材料，并让材料本身可维护、可验证、可复用。

三、可迁移的工程判断

背景

这组高亮提炼的是《浏览器 Agent 需要的不是更好的模型，而是更好的眼睛》里可迁移的工程判断：如何把模糊能力变成可执行、可验证、可复用的系统动作。

所以我问 Claude：嘿，你能帮我预订这个吗？结果到最后，它无法选择日期，就卡住了。

兴趣匹配度中高。它提供的价值不在具体工具名，而在可迁移的设计原则和工程判断，可以作为后续写作和团队实践的素材。

整体判断

这篇内容最值得保留的是它把《浏览器 Agent 需要的不是更好的模型，而是更好的眼睛》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、可迁移的工程判断。对汉松后续写作和团队实践来说，它可以作为 AI Agent 工程化素材库的一块：不是追逐单个工具功能，而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环，以及人类判断应该放在哪些关键节点。