AutoGLM 技术探秘：让 AI 学会“点点点”的挑战与策略

前言

最近 AI 领域有个挺火的方向，就是让 AI 像人一样去操作图形界面（GUI），比如自动帮你订外卖、处理邮件等等。智谱 AI 推出的 AutoGLM 就是这个方向的一个尝试（产品地址：https://autoglm-research.zhipuai.cn/，开源地址：https://xiao9905.github.io/AutoGLM/）。

大家可能会觉得，大模型这么聪明，让它点点鼠标、填填表格应该不难吧？但实际情况远比想象的复杂。今天我们就来扒一扒 AutoGLM 背后的技术思路（主要参考这两篇论文：AutoGLM: Autonomous Foundation Agents for GUIs 和 WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning），看看让 AI 学会“点点点”到底难在哪，以及研究人员们想了哪些办法。

解决方案一：拆分任务，专攻定位

核心挑战：规划很强，定位很“方”

我们先来看看第一个大问题。研究人员发现，现在的大模型（LLM/LMM）在理解“要做什么”（规划）方面其实还行，比如你让它“搜索北京天气”，它大概知道要去搜索框输入文字然后点击搜索按钮。但问题出在“点哪里”（定位）上。

简单来说，模型知道要去点“搜索按钮”，但在屏幕上一堆花花绿绿的元素里，精确找到那个按钮的具体位置，对它来说是个老大难的问题。经常点错地方，任务自然就失败了。

既然定位是个瓶颈，那干脆把任务拆成两步：

规划 (Planning): 大模型先想好操作步骤，比如“找到搜索框”，“输入文字”，“点击搜索按钮”。
定位 (Locating): 针对每一步需要交互的元素（比如“搜索框”），专门训练一个模型来精确找到它在屏幕上的位置。

这个“定位”模型是怎么炼成的呢？

AutoGLM 的论文里面没说细节，但提到了一个类似的工作：《Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents》

这篇论文里提到了一个叫 UGround 的相关工作，专门解决这个问题。你可以把它想象成一个“指哪打哪”的模型。训练它需要喂给它三样东西：

输入 - GUI 屏幕截图: 就是我们看到的那个界面图片。
输入 - 指称表达 (Referring Expression): 用自然语言描述要找的那个元素，比如“那个红色的登录按钮”、“页面右上角的购物车图标”。
输出 - 像素坐标: 模型需要准确预测出这个元素在图片上的中心点坐标，比如 (1344, 1344)，这样才能实现精确点击。

训练数据从哪来？

要让模型学会定位，需要海量的(屏幕截图, 指称表达, 坐标)数据。研究人员也是下了血本：

主力军 (Web-Hybrid): 这是他们自己搞的主要数据集，基于网页自动生成的。他们先抓取大量网页，然后用规则和 LLM 生成各种五花八门的“指称表达”（比如描述颜色、位置、功能的），覆盖了 900 万个元素！
补充兵 (Web-Direct): 也是基于网页，但直接用更强的 GPT-4o 生成描述，追求更自然的表达方式。
外援 (Android Datasets): 把现有的各种 Android 应用界面数据集也整合进来，增加多样性。

核心思想就是： 用尽可能多、尽可能接近人类表达习惯的数据，教会模型看懂截图和描述，然后准确地输出坐标。

解决方案二：在实践中进化 —— 强化学习与课程学习

光会定位还不够，要完成复杂任务，AI Agent 需要在真实环境中不断尝试和学习。这里就用到了强化学习（Reinforcement Learning, RL）的路子。

简单来说，就是让 Agent 在一个模拟的网页环境（比如 WebArena）里：

看一眼当前页面和任务指令。
决定下一步操作（点哪个元素，输入什么）。
环境执行操作，给它看新页面。
重复这个过程，直到任务完成或失败。
根据结果给 Agent 打分（奖励或惩罚），让它调整策略，下次做得更好。

但是，强化学习训练也有自己的坑：

训练任务稀缺: 哪有那么多现成的、标注好的网页任务给它练手？
反馈信号稀疏: 很多时候要操作好多步才能知道任务成败，中间步骤做对了还是做错了，很难及时得到反馈。
策略漂移: 模型一边学一边变，可能导致训练不稳定。

AutoGLM 的妙招：自进化课程学习

看到这里你可能有点晕了，这又是什么新概念？没关系，我们把它拆开看。 这个策略的核心思想是：让 AI 从易到难地学习，而且这个“难易程度”是动态调整的。

它主要包含两个步骤：

生成 (Generation): 从失败中创造新任务

系统会看 Agent 在哪些任务上失败了。失败说明这些任务有挑战性。
然后，利用 GPT-4o 这样的强力模型，基于这些失败的任务，生成一批相似但又略有不同的新任务指令。比如，上次让它搜“北京天气”失败了，这次就生成“查询上海今日气温”、“搜索广州未来三天预报”等变体。
目的： 针对性地让 Agent 在薄弱环节进行更多、更多样化的练习。

过滤 (Filtering): 控制难度，确保可行

生成的新任务不能一股脑全丢给 Agent，万一太难直接劝退了呢？
这里引入一个 “评论家” (Critic) 模型，专门评估每个新任务对当前 Agent 来说有多难。
只选择那些难度评分在合适范围（比如论文里提到的 0.05 到 0.75）的任务。太简单的（没挑战）和太难的（学不会）都不要。
同时，还要确保这些任务在模拟环境（WebArena）里是真的可以完成的，会有人工或 GPT-4o 再审一遍，排除掉那些不切实际的任务。
目的： 保证 Agent 总是在“跳一跳能够得着”的难度区间学习，效率最高。

难度逐步提升的例子：

看看 Figure 8 里的指令变化，就能直观感受到这个“课程”是怎么变难的：

Phase 1: 还比较简单，就是从报告里找个数字。
Phase 2: 开始复杂了，要按条件筛选（待处理、最高交易额），再找特定信息（购买日期）。
Phase 3: 条件更复杂（已完成、最低交易额）。
Phase 4: 不仅要找，还要比较不同条件下的结果。

是不是很像我们上学时的感觉？先学加减，再学乘除，难度一点点加上去。

总结

让 AI 学会像人一样操作图形界面，挑战确实不小。AutoGLM 主要从两个方面入手：

拆解问题: 把复杂的交互任务拆分成“规划”和“定位”两步，用专门的模型解决“点哪里”这个瓶颈问题，并通过海量数据训练定位精度。
智能训练: 采用强化学习，并通过“自进化课程学习”策略，动态生成难度合适的任务，让 Agent 从易到难、循序渐进地提升能力，克服训练数据稀缺和反馈稀疏的问题。

虽然离真正完美的 GUI Agent 还有距离，但这些思路无疑为我们指明了方向。未来 AI 能不能真的帮你处理各种电脑、手机上的繁琐操作，这些技术是关键的一环。