来源

原始链接：https://mp.weixin.qq.com/s/Vy4IINteDQFrdr9cffKMhA
来源类型：公众号文章正文
来源标题：对话姚顺宇：从理论物理到 AI 的跨界探索与行业洞察

姚顺宇访谈高亮：从物理到 AI、后训练与长程任务

文本来源是微信公众号「语言即世界」对姚顺宇的访谈节选。内容覆盖他从理论物理转向 AI、在 Anthropic 参与 Claude 3.7 后训练、转入 Google DeepMind 后关注 ML coding 与 long horizon，以及对模型公司组织形态的判断。按汉松兴趣画像，以下高亮优先保留机制解释、反常识判断和可迁移到 AI 产品与 Agent 系统的工作流洞见。

一、AI 研究更像早期物理：先有经验规律，再逐步形成机制理解

背景

姚顺宇反复用物理史解释当下大模型研究：我们对模型内部机制的理解仍然粗糙，但这不妨碍工程前进。Scaling Law 在这个阶段更像热力学早期的经验规律：先稳定描述现象，再等待更细的微观解释补上。

AI 是否黑盒是相对的。我们还没有理解到每个神经元激发对应什么行为，但 Scaling Law 已经描述了模型大小、数据量和困惑度之间的稳定关系。如果这都不算理解的一部分，那物理学早期对世界的理解也很难被称为理解。

智能涌现这个说法本身不太科学。更好的定义是：是否发生了一个技术变化，使我们可以扩大训练规模，并且水平地提升所有能力。

当下 AI 更像十七、十八世纪的热力学。人们还不知道热的微观理论，但已经有可用的经验定律；今天我们也不知道语言模型里每个矩阵元在做什么，但已经有 Scaling Law 和后训练的经验规律。

兴趣匹配度很高。这里最有价值的是把黑盒焦虑改写为科学阶段判断：理解不等于完全可解释，工程推进也不必等待完整理论。对 AI 健康管家、Agent 系统和模型应用来说，关键是识别哪些经验规律已经足够稳定，可以进入工程化利用。

二、后训练的核心不是神秘算法，而是可学习环境、清晰反馈和稳定系统

背景

访谈里最值得保留的技术判断，是他把大规模强化学习从神秘技巧拉回系统工程：不同公司算法不同，但共同方向是找到反馈清楚、数据干净、模型可学习、训练稳定的环境。

后训练要做成，核心是找到合适的环境。这个环境的回馈信号足够清晰，本身又是很强的数据源，在这个环境上训练足够稳定，事情就能成立。

OpenAI、Anthropic 和 DeepSeek 的具体实现很不一样，但大的方向一致：找回归信号清楚、客观，数据干净，而且对模型可学习的任务，在上面做稳定的强化学习训练。

技术 tips 很多人爱听，公司也不让说，但很多时候实际用处有限。现代 AI 训练是一个大系统，只有理解系统的方方面面，才知道一个技巧为什么在某个环境里有用。

兴趣匹配度很高。这可以直接迁移成 Agent 产品和模型训练的判断框架：别迷信单点 prompt、算法名或技巧，先问任务环境是否有清晰反馈，数据是否干净，失败是否可诊断，基础设施是否支撑稳定迭代。

三、Coding 是模型使用工具和环境交互的好抽象

背景

姚顺宇解释 Anthropic 为什么重押 coding 时，给出的不是市场叙事，而是训练信号叙事。Coding 的价值在于它同时具备回馈清晰和数据充分两个条件，因此可以作为更通用工具使用能力的训练场。

Coding 重要有两个原因。第一，coding 本身也是语言模型研究的一部分，如果模型能把 coding 做好，研究效率会翻倍，形成研究飞轮。

第二，coding 是模型使用工具和环境交互的一个好抽象。它的好处是回归信号清晰，数据充分。很难在别的场景下找到能同时具备这两个特质的工具使用场景。

Agentic coding 是过去已经完成的一个节点。它既是工具，也是环境；环境就是虚拟机，或者你自己的电脑。接下来横向会延展到 AI research，纵向会进入更长尺度的任务。

兴趣匹配度很高。这和汉松长期关心的编程 Agent、上下文工程、人机共生高度重合。Coding 的战略意义并不限于写代码效率，而在于它提供了一个可训练、可验证、可扩展的环境交互范式。未来很多 Agent 场景可以用同一组变量来分析：工具、环境、反馈、数据、任务长度。

四、长程任务的关键不是无限上下文，而是选择性遗忘、检索和外部工作空间

背景

姚顺宇在 Google DeepMind 关注的 long horizon，与汉松自己的 Hermes、Obsidian、记忆系统高度相关。他给出的判断很清楚：真正的问题不是把上下文窗口无限拉长，而是在有限上下文里完成长任务。

Long horizon 的口号可以概括为：用有限的上下文训练，但用起来像无限上下文。

人的上下文其实很短。人能做长任务，是因为会选择性遗忘，也会选择性检索，把重要的、和当前场景相关的信息重新抓回来。

预训练方案通常仍然需要长上下文和长数据；后训练方案更符合这个问题的哲学：能不能用短上下文训练，却完成长上下文的事。

外界每天用的 Cursor 就有很强的上下文管理能力：模型可以选择丢掉不重要的中间片段，把重要内容存在某个文件里，到需要时再取回来。

兴趣匹配度很高。这几乎是在描述个人 AI 工作系统的核心：文件系统作为外部记忆，模型负责压缩、检索、选择性遗忘，人负责目标、边界和验收。对 Hermes 来说，长程任务能力很大一部分来自 workspace、memory、skills、cron、verification 的组合，而不是单纯更大的窗口。

五、模型公司的差异，很多时候是组织决策结构的差异

背景

访谈里关于 Anthropic、OpenAI、Google 的比较，本质上是在讲不同组织如何把技术机会转成行动。Anthropic 能快速 make bet，Google 能把确定性范式工程化，OpenAI 则受到文化和组织问题牵制。

Anthropic 能实行自上而下，有一个很难的条件：技术决策人也必须是公司的决策人。技术上要能服众，组织上要能负责。

Anthropic 的优势在于技术一号位有公信力，而且创始团队互相信任。他们是真正一起打过仗的人。

Startup 的关键是 make bet，敢快速下注并强力推进。大公司的打法不同，它可以在方方面面都有储备，任何一个方向成了都能跟上。

Google 在预训练上逐渐进入舒适区：范式足够确定后，它就能把这件事变成工程项目，明确阶段目标、节点负责人和评估框架。

兴趣匹配度高。这里可以转化为团队管理判断：技术战略不是只看模型路线，还看组织是否有把技术信号变成资源配置的结构。对汉松当前带团队做 AI 健康管家，真正难点可能不是有没有想法，而是技术判断、业务责任、组织信任和执行节奏能否对齐。

六、AI 行业的稀缺不在聪明，而在靠谱、细致和对结果负责

背景

姚顺宇最反常识的判断之一，是 AI 行业不太需要脑子，更需要靠谱。这不是贬低复杂性，而是把能力从天才叙事拉回可验证的工程责任：能不能用 AI 完成任务，能不能理解 AI 做了什么，能不能对结果负责。

个人英雄主义时代已经过去了。现在很多模型侧工作是集体主义：集体能不能为了一个目标共同投入时间和精力，比单个个人贡献了什么更重要。

AI 这个方向本质上是简单的。除了技术跳变的那一下需要深刻洞见，后续很多想法都很平凡，谁都能想，谁都能干，关键是有没有机会和系统去做。

这个行业最重要的特质是靠谱，做事细，对自己做的事负责任。

他设计过一道 24 小时面试题：让候选人从 0 到 1 完成一个强化学习项目。代码本身不再是重点，重点是候选人能不能有效利用 AI，并且真的理解 AI 为自己做了什么。全盘扔给 AI、自己不理解的人，会在讨论里露馅。

兴趣匹配度很高。这条对汉松的 AI 共生主题尤其关键：真正的 AI 能力不是把任务甩给模型，而是形成协作、理解输出、承担判断。它对应汉松自我模型里的求解、创造、担当：用 AI 加速求解和创造，但担当不能外包。

七、下一阶段的关键 bet：AI 自己做实验与 long horizon

背景

姚顺宇对未来 6 到 12 个月的判断很直接：AI 会逐步补齐从写代码到跑实验、分析结果、提出假设、再写代码的完整研究链条。他当前押注的方向，是 ML coding 和 long horizon 的结合。

AI 自己提高自己，或者自己加快自己的发展过程，其实已经在发生。它已经能帮研究者实现很多想法，加快实验速度。

目前还没完整闭合的是：AI 能不能从头到尾完成一件 AI 研究。它不仅写代码，还能跑实验、看结果、分析问题、提出新假设、设计新代码、再跑新实验。

他当前最高优先级，是把 ML coding 和 long horizon 与同事一起推进到稳定状态。

如果要基于当下认知押一个关键 bet，他给出的答案是 long horizon。

兴趣匹配度很高。这是 Agent 系统的下一层门槛：从单次代码生成到闭环研究执行。对汉松来说，这个判断值得放进长期观察清单：未来 AI 产品的核心差异，可能会从模型单轮回答质量，转向它能否在真实环境里持续行动、记录状态、修正假设并完成长周期任务。

整体判断

这篇访谈最值得保留的不是姚顺宇的尖锐表达，而是他把 AI 前沿研究拆成几个可操作的底层变量：经验规律、环境反馈、系统稳定性、组织决策、上下文管理和责任承担。它和汉松的兴趣高度重合，因为它没有停留在模型强弱排行榜，而是在回答 AI 能力如何被训练出来、如何被组织捕捉、如何被产品化为长程任务系统。

对汉松最有价值的 takeaway 是：AI 的下一阶段不只是更强模型，而是更清晰的反馈环境、更稳定的训练系统、更会管理上下文的 Agent，以及更能对结果负责的人机协作关系。

对话姚顺宇：从理论物理到 AI 的跨界探索与行业洞察

来源