跳到正文
汉松札记
返回

对话姚顺宇:从理论物理到 AI 的跨界探索与行业洞察

AI Highlight

来源

姚顺宇访谈高亮:从物理到 AI、后训练与长程任务

文本来源是微信公众号「语言即世界」对姚顺宇的访谈节选。内容覆盖他从理论物理转向 AI、在 Anthropic 参与 Claude 3.7 后训练、转入 Google DeepMind 后关注 ML coding 与 long horizon,以及对模型公司组织形态的判断。按汉松兴趣画像,以下高亮优先保留机制解释、反常识判断和可迁移到 AI 产品与 Agent 系统的工作流洞见。

一、AI 研究更像早期物理:先有经验规律,再逐步形成机制理解

背景

姚顺宇反复用物理史解释当下大模型研究:我们对模型内部机制的理解仍然粗糙,但这不妨碍工程前进。Scaling Law 在这个阶段更像热力学早期的经验规律:先稳定描述现象,再等待更细的微观解释补上。

AI 是否黑盒是相对的。我们还没有理解到每个神经元激发对应什么行为,但 Scaling Law 已经描述了模型大小、数据量和困惑度之间的稳定关系。如果这都不算理解的一部分,那物理学早期对世界的理解也很难被称为理解。

智能涌现这个说法本身不太科学。更好的定义是:是否发生了一个技术变化,使我们可以扩大训练规模,并且水平地提升所有能力。

当下 AI 更像十七、十八世纪的热力学。人们还不知道热的微观理论,但已经有可用的经验定律;今天我们也不知道语言模型里每个矩阵元在做什么,但已经有 Scaling Law 和后训练的经验规律。

兴趣匹配度很高。这里最有价值的是把黑盒焦虑改写为科学阶段判断:理解不等于完全可解释,工程推进也不必等待完整理论。对 AI 健康管家、Agent 系统和模型应用来说,关键是识别哪些经验规律已经足够稳定,可以进入工程化利用。

二、后训练的核心不是神秘算法,而是可学习环境、清晰反馈和稳定系统

背景

访谈里最值得保留的技术判断,是他把大规模强化学习从神秘技巧拉回系统工程:不同公司算法不同,但共同方向是找到反馈清楚、数据干净、模型可学习、训练稳定的环境。

后训练要做成,核心是找到合适的环境。这个环境的回馈信号足够清晰,本身又是很强的数据源,在这个环境上训练足够稳定,事情就能成立。

OpenAI、Anthropic 和 DeepSeek 的具体实现很不一样,但大的方向一致:找回归信号清楚、客观,数据干净,而且对模型可学习的任务,在上面做稳定的强化学习训练。

技术 tips 很多人爱听,公司也不让说,但很多时候实际用处有限。现代 AI 训练是一个大系统,只有理解系统的方方面面,才知道一个技巧为什么在某个环境里有用。

兴趣匹配度很高。这可以直接迁移成 Agent 产品和模型训练的判断框架:别迷信单点 prompt、算法名或技巧,先问任务环境是否有清晰反馈,数据是否干净,失败是否可诊断,基础设施是否支撑稳定迭代。

三、Coding 是模型使用工具和环境交互的好抽象

背景

姚顺宇解释 Anthropic 为什么重押 coding 时,给出的不是市场叙事,而是训练信号叙事。Coding 的价值在于它同时具备回馈清晰和数据充分两个条件,因此可以作为更通用工具使用能力的训练场。

Coding 重要有两个原因。第一,coding 本身也是语言模型研究的一部分,如果模型能把 coding 做好,研究效率会翻倍,形成研究飞轮。

第二,coding 是模型使用工具和环境交互的一个好抽象。它的好处是回归信号清晰,数据充分。很难在别的场景下找到能同时具备这两个特质的工具使用场景。

Agentic coding 是过去已经完成的一个节点。它既是工具,也是环境;环境就是虚拟机,或者你自己的电脑。接下来横向会延展到 AI research,纵向会进入更长尺度的任务。

兴趣匹配度很高。这和汉松长期关心的编程 Agent、上下文工程、人机共生高度重合。Coding 的战略意义并不限于写代码效率,而在于它提供了一个可训练、可验证、可扩展的环境交互范式。未来很多 Agent 场景可以用同一组变量来分析:工具、环境、反馈、数据、任务长度。

四、长程任务的关键不是无限上下文,而是选择性遗忘、检索和外部工作空间

背景

姚顺宇在 Google DeepMind 关注的 long horizon,与汉松自己的 Hermes、Obsidian、记忆系统高度相关。他给出的判断很清楚:真正的问题不是把上下文窗口无限拉长,而是在有限上下文里完成长任务。

Long horizon 的口号可以概括为:用有限的上下文训练,但用起来像无限上下文。

人的上下文其实很短。人能做长任务,是因为会选择性遗忘,也会选择性检索,把重要的、和当前场景相关的信息重新抓回来。

预训练方案通常仍然需要长上下文和长数据;后训练方案更符合这个问题的哲学:能不能用短上下文训练,却完成长上下文的事。

外界每天用的 Cursor 就有很强的上下文管理能力:模型可以选择丢掉不重要的中间片段,把重要内容存在某个文件里,到需要时再取回来。

兴趣匹配度很高。这几乎是在描述个人 AI 工作系统的核心:文件系统作为外部记忆,模型负责压缩、检索、选择性遗忘,人负责目标、边界和验收。对 Hermes 来说,长程任务能力很大一部分来自 workspace、memory、skills、cron、verification 的组合,而不是单纯更大的窗口。

五、模型公司的差异,很多时候是组织决策结构的差异

背景

访谈里关于 Anthropic、OpenAI、Google 的比较,本质上是在讲不同组织如何把技术机会转成行动。Anthropic 能快速 make bet,Google 能把确定性范式工程化,OpenAI 则受到文化和组织问题牵制。

Anthropic 能实行自上而下,有一个很难的条件:技术决策人也必须是公司的决策人。技术上要能服众,组织上要能负责。

Anthropic 的优势在于技术一号位有公信力,而且创始团队互相信任。他们是真正一起打过仗的人。

Startup 的关键是 make bet,敢快速下注并强力推进。大公司的打法不同,它可以在方方面面都有储备,任何一个方向成了都能跟上。

Google 在预训练上逐渐进入舒适区:范式足够确定后,它就能把这件事变成工程项目,明确阶段目标、节点负责人和评估框架。

兴趣匹配度高。这里可以转化为团队管理判断:技术战略不是只看模型路线,还看组织是否有把技术信号变成资源配置的结构。对汉松当前带团队做 AI 健康管家,真正难点可能不是有没有想法,而是技术判断、业务责任、组织信任和执行节奏能否对齐。

六、AI 行业的稀缺不在聪明,而在靠谱、细致和对结果负责

背景

姚顺宇最反常识的判断之一,是 AI 行业不太需要脑子,更需要靠谱。这不是贬低复杂性,而是把能力从天才叙事拉回可验证的工程责任:能不能用 AI 完成任务,能不能理解 AI 做了什么,能不能对结果负责。

个人英雄主义时代已经过去了。现在很多模型侧工作是集体主义:集体能不能为了一个目标共同投入时间和精力,比单个个人贡献了什么更重要。

AI 这个方向本质上是简单的。除了技术跳变的那一下需要深刻洞见,后续很多想法都很平凡,谁都能想,谁都能干,关键是有没有机会和系统去做。

这个行业最重要的特质是靠谱,做事细,对自己做的事负责任。

他设计过一道 24 小时面试题:让候选人从 0 到 1 完成一个强化学习项目。代码本身不再是重点,重点是候选人能不能有效利用 AI,并且真的理解 AI 为自己做了什么。全盘扔给 AI、自己不理解的人,会在讨论里露馅。

兴趣匹配度很高。这条对汉松的 AI 共生主题尤其关键:真正的 AI 能力不是把任务甩给模型,而是形成协作、理解输出、承担判断。它对应汉松自我模型里的求解、创造、担当:用 AI 加速求解和创造,但担当不能外包。

七、下一阶段的关键 bet:AI 自己做实验与 long horizon

背景

姚顺宇对未来 6 到 12 个月的判断很直接:AI 会逐步补齐从写代码到跑实验、分析结果、提出假设、再写代码的完整研究链条。他当前押注的方向,是 ML coding 和 long horizon 的结合。

AI 自己提高自己,或者自己加快自己的发展过程,其实已经在发生。它已经能帮研究者实现很多想法,加快实验速度。

目前还没完整闭合的是:AI 能不能从头到尾完成一件 AI 研究。它不仅写代码,还能跑实验、看结果、分析问题、提出新假设、设计新代码、再跑新实验。

他当前最高优先级,是把 ML coding 和 long horizon 与同事一起推进到稳定状态。

如果要基于当下认知押一个关键 bet,他给出的答案是 long horizon。

兴趣匹配度很高。这是 Agent 系统的下一层门槛:从单次代码生成到闭环研究执行。对汉松来说,这个判断值得放进长期观察清单:未来 AI 产品的核心差异,可能会从模型单轮回答质量,转向它能否在真实环境里持续行动、记录状态、修正假设并完成长周期任务。

整体判断

这篇访谈最值得保留的不是姚顺宇的尖锐表达,而是他把 AI 前沿研究拆成几个可操作的底层变量:经验规律、环境反馈、系统稳定性、组织决策、上下文管理和责任承担。它和汉松的兴趣高度重合,因为它没有停留在模型强弱排行榜,而是在回答 AI 能力如何被训练出来、如何被组织捕捉、如何被产品化为长程任务系统。

对汉松最有价值的 takeaway 是:AI 的下一阶段不只是更强模型,而是更清晰的反馈环境、更稳定的训练系统、更会管理上下文的 Agent,以及更能对结果负责的人机协作关系。


订阅 AI Highlight

分享这篇文章:


上一篇
Anthropic 前沿 Agent 记忆系统与 Dreaming 机制高亮
下一篇
Claude Code 团队如何重构研发管理