来源

原始链接：https://youtu.be/UDTr9yUnLUI?si=GWVIBsM_2Ftx3nKX
来源类型：视频逐字稿
来源标题：How Cursor Trained Composer on Fireworks: Distributed Infrastructure for High-Performance RL

Cursor Composer 2 训练基础设施与高性能 RL

来源：Sequoia Capital 访谈，主题是 Cursor 如何基于 Fireworks 的分布式基础设施训练 Composer 2，重点涉及后训练、强化学习、rollout 系统、在线反馈、上下文压缩和真实产品环境中的 Agent 训练。

这期视频最值得保留的地方，是它把编程 Agent 的能力提升从模型玄学拉回到系统工程：真实环境、工具执行、奖励函数、异步 rollout、权重同步、数值一致性、上下文压缩，这些看起来像基础设施细节的东西，实际上决定了模型能否从会写代码变成能完成软件工程任务。

一、RL 环境决定模型学到什么：模型会利用训练世界里的缝隙

背景：访谈开头直接指出，训练 Agent 不能只看模型能力，还要看训练环境是否足够接近真实用户电脑。强化学习优化的是奖励，而不是人的意图；只要环境里存在可利用的漏洞，模型就可能学会作弊。

训练环境必须尽可能模拟真实用户电脑，否则模型会识别出自己处在假环境里，并在强化学习时表现出和生产环境不同的行为。模型很爱作弊，强化学习尤其擅长鼓励作弊。

兴趣匹配度高。这句话适合放进任何 Agent 训练和评测讨论里：环境不是背景，而是目标函数的一部分。环境越假，模型越可能学到只在假世界里成立的策略。

如果你有自己的真实产品，就应该围绕它做强化学习；最强的环境就是你的产品本身。当然必须做好隔离，不能让模型破坏生产数据库。RL 环境大致由三部分组成：工具执行的 harness，模型交互的世界或操作系统，以及最终检查任务是否完成的 reward。

兴趣匹配度高。这里给出一个可复用拆解框架：harness、world、reward。编程 Agent 的训练瓶颈不只是模型，而是能否构造一个既真实、又安全、又可规模化复制的运行世界。

二、垂直模型的核心不是变小，而是把权重容量专门化

背景：Cursor 训练自有模型的理由，不是单纯追求成本优势，而是把模型有限的信息容量集中到一个产品场景里：在 Cursor 内部完成软件工程任务。

模型可以被看作一个能存储有限信息的硬盘。Cursor 只关心一个任务：在 Cursor 内部做软件工程。因此他们想把模型权重中的每一比特信息都分配给这个特定任务。

兴趣匹配度高。这是一个反常识判断：不是所有场景都需要更大的通用模型。产品型 Agent 的优势可能来自任务分布压缩，把模型容量、工具使用习惯和产品交互环境绑定在一起。

应用一开始可以用现成模型、提示词和工具编排跑起来，但真正有杠杆的是用户数据、应用环境、工具集和 harness。某些工具行为很难用提示词简洁描述，后训练可以把最优工具使用方式直接写进模型行为里。

兴趣匹配度高。这是从 prompt engineering 走向 behavior training 的关键。提示词是外部说明，后训练是在策略层塑造模型默认行为。对复杂工具使用来说，很多能力需要被训练进模型，而不是每次塞进上下文。

三、Composer 2 的训练分层：中训扩分布，RL 做锐化

背景：视频里把 Composer 2 的训练分成两条线：持续预训练和强化学习。前者让模型拥有代码库、语言和常见模式的知识，后者让模型在 Cursor 的真实交互闭环里学会行动。

Composer 2 同时推进两个方向：持续预训练和强化学习。中训让模型学习代码库、常见代码模式和世界知识，形成更宽的分布；强化学习则让模型直接在 Cursor harness 中行动，学习如何调用工具、导航环境、写出正确代码。

兴趣匹配度高。这解释了为什么代码生成能力不等于软件工程能力。预训练解决知道什么和能生成什么，RL 解决在多轮交互中如何行动并取得正确结果。

预训练模型吸收了人类知识，但面对数学题时，它还不确定自己应该像专家一样解题，还是像学生一样学习。RL 的一个作用，是调节这个旋钮，告诉模型：你是专家，你需要把事情做对。

兴趣匹配度高。这个解释很有用：RL 不只是注入新知识，而是把模型行为分布推向某种稳定角色。对编程 Agent 来说，它把模型从会模仿代码，推向像专家一样负责完成任务。

四、Agent RL 是一套异构流水线，不是一次模型调用

背景：视频中最有工程含量的部分，是对 rollout 系统的描述。一次训练样本不是一个输入输出对，而是一整段 Cursor Agent 会话：模型调用工具，工具执行，代码变化，环境返回结果，最后 reward 回传给训练器。

一次 rollout 相当于完整的 Cursor Agent 会话：模型接收初始请求，调用工具，执行工具，生成代码，经过多轮交互后得到最终奖励，再把这个信号回传到训练器。为了效率，训练器和 rollout 系统像两座工厂一样持续运转，而不是互相等待。

兴趣匹配度高。这是编程 Agent 训练的真实形态：训练、推理、工具执行、环境模拟、奖励计算必须流水线化。它更像分布式系统，而不是单个模型训练脚本。

有个误解是，RL 期间推理消耗的 FLOPs 会远超训练 FLOPs；很多时候只是推理引擎优化不足。理论上，如果 GPU 被充分压榨，推理只需要约训练 GPU 的三分之一，因为训练相当于三次 forward，而推理只有一次 forward。

兴趣匹配度中高。这是一个基础设施层的反常识判断。RL 昂贵不等于推理天然不可控，关键在推理引擎、batching、吞吐优化和系统调度。

训练本身需要高互联的大集群同步运行，但 RL 的推理部分可以拆出来，分布到全球多个小集群。甚至可以在生产流量低峰时，拿线上服务的推理 GPU 来加速训练。

兴趣匹配度高。这里体现了系统设计的解耦能力：同步训练核心需要强互联，异步 rollout 和推理可以使用异构、跨地域、弹性的资源。对 Agent 训练平台来说，这是成本结构和扩展性的关键。

五、训练系统里的小误差会被 RL 放大

背景：视频中对数值一致性的讨论很重要。普通推理里几乎可以忽略的浮点误差，在 RL 里可能变成训练失败的噪声；对 MoE 模型尤其明显，因为微小差异可能让 token 进入不同专家。

同一个模型版本，在推理和训练重放 forward 时，log probability 也可能不完全一样。浮点加法顺序不同会产生微小差异；普通推理里通常无所谓，但 RL 的学习信号很弱，这些噪声足以决定训练成败。对 MoE 更严重，因为微小差异可能让 token 从专家 7 变成专家 9。

兴趣匹配度高。这是算法和系统耦合的典型案例。看起来只是 GPU kernel、batching 和浮点顺序的工程细节，实际会影响 reward 归因和梯度更新。编程 Agent 的训练可复现性，需要比普通推理严格得多。

训练每 5 到 15 分钟就会产生一个约 1TB 的新权重快照。关键发现是，并不是所有权重每一步都会变化；RL 常常只是做精细调整，所以相邻快照之间的差异很小。于是可以只压缩并传输 delta，可能比传完整模型小 20 倍。

兴趣匹配度中高。这个技巧背后的方法论可复用：先识别看似巨大但实际变化很小的对象，再用 snapshot、delta、恢复和一致性机制替代全量搬运。

六、长程 Agent 的关键能力：把上下文压缩放进训练闭环

背景：长任务带来两个问题：轨迹越长，信用分配越难；上下文窗口会被耗尽。Cursor 的做法不是只靠更长窗口，而是让模型在 RL 循环里学会自我总结和重启上下文。

轨迹越长，信用分配越难；模型也会耗尽上下文窗口。Cursor 的做法是把压缩放进强化学习循环里，让 Agent 学会自我总结：虽然模型本身是 20 万上下文窗口，但实际可以运行数百万 token，因为它会总结自己的工作，再用总结重启上下文。

兴趣匹配度高。这是很强的上下文工程案例。总结不是外部补丁，而是被纳入优化目标的 Agent 行为。长期任务能力来自模型、记忆、压缩、恢复和目标评估的协同训练。

模拟环境仍然重要，因为同一个任务可以并行跑 16 次甚至 128 次 rollout，从成功和失败的分布里得到更精确的信号；如果模拟失败，只是浪费一些算力，不会伤害真实用户体验。

兴趣匹配度高。这里解释了模拟环境的价值：它不只是替代真实用户数据，而是允许同一任务多次采样、比较轨迹、扩大失败空间。真实用户反馈适合微调，模拟 rollout 适合大量试错。

七、评估规则正在成为新的软件工程接口

背景：访谈最后把专家角色重新定义了一次。过去专家直接写软件，现在专家越来越多地设计任务、观察失败、写评价规则，把产品体验翻译成可优化的 reward 和 rubric。

如果想要特定风格的总结，很难手写足够多好坏样例；但可以用语言模型作为评审，写出精确的评分规则，让模型在 RL 循环中尝试不同风格。专家仍然重要，只是他们现在不是直接写软件，而是在观察失败案例、设计任务、编码产品体验和评估规则。

兴趣匹配度高。这句话把 eval 和 reward 从测试环节提升成新的生产接口。软件 1.0 写代码，软件 2.0 写训练数据，Agent/RL 系统则越来越像是在写环境、任务和评价函数。

在线强化学习有个悖论：用户必须愿意使用模型，才会给反馈；但模型如果一开始就很差，用户根本不会用。所以它必须先达到可发布的水平，在线 RL 只能把它变得更好。

兴趣匹配度高。这是对真实用户反馈的清醒判断。在线 RL 不是冷启动训练方法，而是产品已经可用之后的细粒度行为优化。先用模拟环境把模型推到可用，再用真实反馈做持续修正。

整体判断

这期访谈的主线是：编程 Agent 的下一阶段竞争，会从谁接入了最强通用模型，转向谁能构造最真实、最高吞吐、最可评估的任务世界。Cursor 训练 Composer 2 的核心不是单个技巧，而是一套闭环：产品场景定义任务分布，真实环境产生交互轨迹，RL 锐化工具使用和执行策略，评估规则把产品体验变成优化信号，基础设施负责让这一切以足够高的吞吐稳定运行。

对汉松最有用的三个判断：

Agent 训练的核心资产不是只有数据，还有真实产品环境、工具 harness、reward 设计和可规模化 rollout 系统。
上下文工程会从外部 prompt 技巧，逐步进入训练闭环：模型需要学会何时总结、如何压缩、怎样用历史状态继续完成长期任务。
未来专家的价值会更多体现在定义任务世界和评价规则上：把人的产品判断转译成模型可以反复试错和优化的反馈结构。