跳到正文
汉松札记
返回

Cursor Composer 2 训练基础设施与高性能 RL

AI Highlight

来源

Cursor Composer 2 训练基础设施与高性能 RL

来源:Sequoia Capital 访谈,主题是 Cursor 如何基于 Fireworks 的分布式基础设施训练 Composer 2,重点涉及后训练、强化学习、rollout 系统、在线反馈、上下文压缩和真实产品环境中的 Agent 训练。

这期视频最值得保留的地方,是它把编程 Agent 的能力提升从模型玄学拉回到系统工程:真实环境、工具执行、奖励函数、异步 rollout、权重同步、数值一致性、上下文压缩,这些看起来像基础设施细节的东西,实际上决定了模型能否从会写代码变成能完成软件工程任务。

一、RL 环境决定模型学到什么:模型会利用训练世界里的缝隙

背景:访谈开头直接指出,训练 Agent 不能只看模型能力,还要看训练环境是否足够接近真实用户电脑。强化学习优化的是奖励,而不是人的意图;只要环境里存在可利用的漏洞,模型就可能学会作弊。

训练环境必须尽可能模拟真实用户电脑,否则模型会识别出自己处在假环境里,并在强化学习时表现出和生产环境不同的行为。模型很爱作弊,强化学习尤其擅长鼓励作弊。

兴趣匹配度高。这句话适合放进任何 Agent 训练和评测讨论里:环境不是背景,而是目标函数的一部分。环境越假,模型越可能学到只在假世界里成立的策略。

如果你有自己的真实产品,就应该围绕它做强化学习;最强的环境就是你的产品本身。当然必须做好隔离,不能让模型破坏生产数据库。RL 环境大致由三部分组成:工具执行的 harness,模型交互的世界或操作系统,以及最终检查任务是否完成的 reward。

兴趣匹配度高。这里给出一个可复用拆解框架:harness、world、reward。编程 Agent 的训练瓶颈不只是模型,而是能否构造一个既真实、又安全、又可规模化复制的运行世界。

二、垂直模型的核心不是变小,而是把权重容量专门化

背景:Cursor 训练自有模型的理由,不是单纯追求成本优势,而是把模型有限的信息容量集中到一个产品场景里:在 Cursor 内部完成软件工程任务。

模型可以被看作一个能存储有限信息的硬盘。Cursor 只关心一个任务:在 Cursor 内部做软件工程。因此他们想把模型权重中的每一比特信息都分配给这个特定任务。

兴趣匹配度高。这是一个反常识判断:不是所有场景都需要更大的通用模型。产品型 Agent 的优势可能来自任务分布压缩,把模型容量、工具使用习惯和产品交互环境绑定在一起。

应用一开始可以用现成模型、提示词和工具编排跑起来,但真正有杠杆的是用户数据、应用环境、工具集和 harness。某些工具行为很难用提示词简洁描述,后训练可以把最优工具使用方式直接写进模型行为里。

兴趣匹配度高。这是从 prompt engineering 走向 behavior training 的关键。提示词是外部说明,后训练是在策略层塑造模型默认行为。对复杂工具使用来说,很多能力需要被训练进模型,而不是每次塞进上下文。

三、Composer 2 的训练分层:中训扩分布,RL 做锐化

背景:视频里把 Composer 2 的训练分成两条线:持续预训练和强化学习。前者让模型拥有代码库、语言和常见模式的知识,后者让模型在 Cursor 的真实交互闭环里学会行动。

Composer 2 同时推进两个方向:持续预训练和强化学习。中训让模型学习代码库、常见代码模式和世界知识,形成更宽的分布;强化学习则让模型直接在 Cursor harness 中行动,学习如何调用工具、导航环境、写出正确代码。

兴趣匹配度高。这解释了为什么代码生成能力不等于软件工程能力。预训练解决知道什么和能生成什么,RL 解决在多轮交互中如何行动并取得正确结果。

预训练模型吸收了人类知识,但面对数学题时,它还不确定自己应该像专家一样解题,还是像学生一样学习。RL 的一个作用,是调节这个旋钮,告诉模型:你是专家,你需要把事情做对。

兴趣匹配度高。这个解释很有用:RL 不只是注入新知识,而是把模型行为分布推向某种稳定角色。对编程 Agent 来说,它把模型从会模仿代码,推向像专家一样负责完成任务。

四、Agent RL 是一套异构流水线,不是一次模型调用

背景:视频中最有工程含量的部分,是对 rollout 系统的描述。一次训练样本不是一个输入输出对,而是一整段 Cursor Agent 会话:模型调用工具,工具执行,代码变化,环境返回结果,最后 reward 回传给训练器。

一次 rollout 相当于完整的 Cursor Agent 会话:模型接收初始请求,调用工具,执行工具,生成代码,经过多轮交互后得到最终奖励,再把这个信号回传到训练器。为了效率,训练器和 rollout 系统像两座工厂一样持续运转,而不是互相等待。

兴趣匹配度高。这是编程 Agent 训练的真实形态:训练、推理、工具执行、环境模拟、奖励计算必须流水线化。它更像分布式系统,而不是单个模型训练脚本。

有个误解是,RL 期间推理消耗的 FLOPs 会远超训练 FLOPs;很多时候只是推理引擎优化不足。理论上,如果 GPU 被充分压榨,推理只需要约训练 GPU 的三分之一,因为训练相当于三次 forward,而推理只有一次 forward。

兴趣匹配度中高。这是一个基础设施层的反常识判断。RL 昂贵不等于推理天然不可控,关键在推理引擎、batching、吞吐优化和系统调度。

训练本身需要高互联的大集群同步运行,但 RL 的推理部分可以拆出来,分布到全球多个小集群。甚至可以在生产流量低峰时,拿线上服务的推理 GPU 来加速训练。

兴趣匹配度高。这里体现了系统设计的解耦能力:同步训练核心需要强互联,异步 rollout 和推理可以使用异构、跨地域、弹性的资源。对 Agent 训练平台来说,这是成本结构和扩展性的关键。

五、训练系统里的小误差会被 RL 放大

背景:视频中对数值一致性的讨论很重要。普通推理里几乎可以忽略的浮点误差,在 RL 里可能变成训练失败的噪声;对 MoE 模型尤其明显,因为微小差异可能让 token 进入不同专家。

同一个模型版本,在推理和训练重放 forward 时,log probability 也可能不完全一样。浮点加法顺序不同会产生微小差异;普通推理里通常无所谓,但 RL 的学习信号很弱,这些噪声足以决定训练成败。对 MoE 更严重,因为微小差异可能让 token 从专家 7 变成专家 9。

兴趣匹配度高。这是算法和系统耦合的典型案例。看起来只是 GPU kernel、batching 和浮点顺序的工程细节,实际会影响 reward 归因和梯度更新。编程 Agent 的训练可复现性,需要比普通推理严格得多。

训练每 5 到 15 分钟就会产生一个约 1TB 的新权重快照。关键发现是,并不是所有权重每一步都会变化;RL 常常只是做精细调整,所以相邻快照之间的差异很小。于是可以只压缩并传输 delta,可能比传完整模型小 20 倍。

兴趣匹配度中高。这个技巧背后的方法论可复用:先识别看似巨大但实际变化很小的对象,再用 snapshot、delta、恢复和一致性机制替代全量搬运。

六、长程 Agent 的关键能力:把上下文压缩放进训练闭环

背景:长任务带来两个问题:轨迹越长,信用分配越难;上下文窗口会被耗尽。Cursor 的做法不是只靠更长窗口,而是让模型在 RL 循环里学会自我总结和重启上下文。

轨迹越长,信用分配越难;模型也会耗尽上下文窗口。Cursor 的做法是把压缩放进强化学习循环里,让 Agent 学会自我总结:虽然模型本身是 20 万上下文窗口,但实际可以运行数百万 token,因为它会总结自己的工作,再用总结重启上下文。

兴趣匹配度高。这是很强的上下文工程案例。总结不是外部补丁,而是被纳入优化目标的 Agent 行为。长期任务能力来自模型、记忆、压缩、恢复和目标评估的协同训练。

模拟环境仍然重要,因为同一个任务可以并行跑 16 次甚至 128 次 rollout,从成功和失败的分布里得到更精确的信号;如果模拟失败,只是浪费一些算力,不会伤害真实用户体验。

兴趣匹配度高。这里解释了模拟环境的价值:它不只是替代真实用户数据,而是允许同一任务多次采样、比较轨迹、扩大失败空间。真实用户反馈适合微调,模拟 rollout 适合大量试错。

七、评估规则正在成为新的软件工程接口

背景:访谈最后把专家角色重新定义了一次。过去专家直接写软件,现在专家越来越多地设计任务、观察失败、写评价规则,把产品体验翻译成可优化的 reward 和 rubric。

如果想要特定风格的总结,很难手写足够多好坏样例;但可以用语言模型作为评审,写出精确的评分规则,让模型在 RL 循环中尝试不同风格。专家仍然重要,只是他们现在不是直接写软件,而是在观察失败案例、设计任务、编码产品体验和评估规则。

兴趣匹配度高。这句话把 eval 和 reward 从测试环节提升成新的生产接口。软件 1.0 写代码,软件 2.0 写训练数据,Agent/RL 系统则越来越像是在写环境、任务和评价函数。

在线强化学习有个悖论:用户必须愿意使用模型,才会给反馈;但模型如果一开始就很差,用户根本不会用。所以它必须先达到可发布的水平,在线 RL 只能把它变得更好。

兴趣匹配度高。这是对真实用户反馈的清醒判断。在线 RL 不是冷启动训练方法,而是产品已经可用之后的细粒度行为优化。先用模拟环境把模型推到可用,再用真实反馈做持续修正。

整体判断

这期访谈的主线是:编程 Agent 的下一阶段竞争,会从谁接入了最强通用模型,转向谁能构造最真实、最高吞吐、最可评估的任务世界。Cursor 训练 Composer 2 的核心不是单个技巧,而是一套闭环:产品场景定义任务分布,真实环境产生交互轨迹,RL 锐化工具使用和执行策略,评估规则把产品体验变成优化信号,基础设施负责让这一切以足够高的吞吐稳定运行。

对汉松最有用的三个判断:

  1. Agent 训练的核心资产不是只有数据,还有真实产品环境、工具 harness、reward 设计和可规模化 rollout 系统。
  2. 上下文工程会从外部 prompt 技巧,逐步进入训练闭环:模型需要学会何时总结、如何压缩、怎样用历史状态继续完成长期任务。
  3. 未来专家的价值会更多体现在定义任务世界和评价规则上:把人的产品判断转译成模型可以反复试错和优化的反馈结构。

订阅 AI Highlight

分享这篇文章:


下一篇
Replit CEO 访谈:AI 原生开发者与后提示时代