跳到正文
汉松札记
返回

浏览器 Agent 需要的不是更好的模型,而是更好的眼睛高亮

AI Highlight

来源

浏览器 Agent 需要的不是更好的模型,而是更好的眼睛高亮

文本来源是 AI Engineer 频道视频《浏览器 Agent 需要的不是更好的模型,而是更好的眼睛》的中文可读转写稿。下面按汉松兴趣画像优先保留机制解释、反常识判断和可复用 workflow,而不是做普通摘要。

一、评估、反馈与故障闭环

背景

这组高亮抓住《浏览器 Agent 需要的不是更好的模型,而是更好的眼睛》里最值得保留的反馈闭环:Agent 系统的可靠性主要来自可观测、可复现、可评分的外部结构,而不是一次性把 prompt 写得更漂亮。

所以我的核心 thesis 是:给 agent 一个好用的环境。也就是说,它可以规划长序列,可以弄清楚自己在哪里失败了、发生了什么,并且可以正确规划点击动作。

这个 benchmark 对浏览器 agent 很有意思,因为它要求完成很多事情,需要对任务做很长的序列规划。它实际上暴露了浏览器 agent 为什么这么差。

我的 Markdown 大约是 1,800 个 token,而且相比一张 screenshot 只能看到某一个局部片段,这份 Markdown 可以让你看到整个网站。还有另外几件重要的事是要提供 feedback。

兴趣匹配度很高。它对应汉松持续关注的 Agent 工程化主线:把非确定性系统放进可反馈、可回归、可复盘的闭环里,真正的壁垒在 harness、eval、trace 和人类分诊。

二、上下文、记忆与检索边界

背景

这里讨论的是 Agent 能否拿到正确材料的问题。对汉松有价值的点在于,它把上下文从背景信息变成系统的运行材料:可索引、可缓存、可审计,也可被重新组织。

所以把这些放在一起,我构建的是一种很干净的表示方式,它基本上会压缩网站,而且你可以把它和 screenshot 一起提供。按 token 来说成本很低。

我当时在想,因为这个网站在加拿大,而我对加拿大的这些流程并不是特别熟。

总之,bottom line 是我想让浏览器 agent 更快、更便宜、更可靠,并确保世界上每个人都在使用它们,因为它们能帮你做非常多的事。

兴趣匹配度很高。这是上下文工程的核心问题:不是给模型更多字,而是让模型在正确边界内获得正确材料,并让材料本身可维护、可验证、可复用。

三、可迁移的工程判断

背景

这组高亮提炼的是《浏览器 Agent 需要的不是更好的模型,而是更好的眼睛》里可迁移的工程判断:如何把模糊能力变成可执行、可验证、可复用的系统动作。

所以我问 Claude:嘿,你能帮我预订这个吗?结果到最后,它无法选择日期,就卡住了。

兴趣匹配度中高。它提供的价值不在具体工具名,而在可迁移的设计原则和工程判断,可以作为后续写作和团队实践的素材。

整体判断

这篇内容最值得保留的是它把《浏览器 Agent 需要的不是更好的模型,而是更好的眼睛》从一次视频分享转成了可迁移的系统判断。核心素材集中在评估、反馈与故障闭环、上下文、记忆与检索边界、可迁移的工程判断。对汉松后续写作和团队实践来说,它可以作为 AI Agent 工程化素材库的一块:不是追逐单个工具功能,而是持续追问系统如何获得上下文、如何被评估、如何进入生产闭环,以及人类判断应该放在哪些关键节点。


订阅 AI Highlight

分享这篇文章:


上一篇
构建系统,而不是代码高亮
下一篇
生产环境中的 Agent:OpenGov 如何构建并扩展 OG Assist 高亮