跳到正文
汉松札记
返回

AI 算力输出最大化:FLOPs 电网与 Anthropic 的 P0

AI Highlight

来源

【GPU 竞赛的盲点:占用了硬件,不等于产生了有效智能】

背景:这期访谈最有价值的起点,是把 AI scaling 从买更多 GPU 改写成如何把已有 GPU 变成真实训练进展。Anjney 区分了两种利用率:节点有没有被分配出去,以及模型实际把 FLOPs 用起来的比例。前者在 Google 低于 95% 就接近事故,后者今天最佳水平也只是 60% 到 70%。

大规模集群里至少要分清两件事:卡有没有被占用,以及模型有没有真正把算力吃进去。很多单租户集群连前者都没有做好,而真正的 MFU 又远低于理论上限。

这首先是一个领导力问题,也就是资本、部署、管理和产出衡量是否真的对齐。链条上每多一层人,起点只偏几度,到规模化之后就会偏得很远。

AI 能力确实是新的,但这不意味着基础设施常识可以被抛弃。恰恰因为规模更大、浪费更贵,AI scaling 更需要迭代式上线、稳定基础设施和负责任的建设方式。

兴趣匹配度很高。它可以直接迁移到 Agent 系统:不要只看并发多少 agent、消耗多少 token、调用多少工具,而要看有效推理、有效编辑、有效验证的比例。Agent 越强,资源占用和真实产出之间的差距越值得被单独测量。

【FLOPs 电网:大而全的集成之外,还有池化和调度这一条路】

背景:当被问到为什么 AMP 作为独立基础设施层比全栈 AI lab 更对齐时,Anjney 给出的不是商业解释,而是系统设计解释。系统有两条经典路径:把流程压进一个节点里做垂直整合,或者把资源抽出来,在多个节点之间池化利用。

系统设计里有两种架构:一种是整合,把很多流程压缩到一个节点;另一种是池化,把资源从单个节点里抽出来,让多个节点共享。AMP 选择的是后者:做一个跨云、跨芯片的算力网格,让 FLOPs 像电力一样流动。

电网历史里,最持久的系统往往不是自己拥有全部资产的公司,而是中立协调者。不同工厂在不同时间有峰值需求,钢厂夜里高峰,鞋厂白天高峰。把不相关的需求放在一起池化,每个参与者都能减少浪费。

所以 AMP 更像独立系统运营商:云厂商是供应方,VC 和研究实验室是需求方,关键能力不是拥有所有资产,而是协调供需、错峰和标准。

兴趣匹配度很高。这是 Agent infra 的好类比:一个系统可以选择做一个全能 agent,也可以把 memory、tool、scheduler、eval、权限、执行器做成可共享的网格。后者的核心不是模型更聪明,而是让稀缺资源在任务之间流动起来。

【可中断需求:真正的调度不是 FIFO,而是让任务价值决定优先级】

背景:AMP 的设想不只是把算力连起来,还包括保证基础负载和允许研究型工作负载短期尖峰。Google 内部类似系统用过可中断需求和信用竞价机制,让更高价值的任务在资源紧张时抢占低优先级任务。

每个团队都需要保证基础容量,但研究任务常常要在短时间内快速冲高。更合理的设计是:基础工作负载有保底,研究尖峰可以按更短周期临时扩张。

一个关键创新是可中断需求。任务先排队,再通过信用系统动态竞价。某个任务值 10 个信用,另一个任务只值 5 个信用,那么更高价值的任务就获得优先级,低价值任务被中断或延后。

这不是简单的市场崇拜,因为有些时刻确实需要中央指挥,全力压到一个方向上。问题在于系统要同时支持基础容量、弹性尖峰、动态优先级和必要时的集中决策。

兴趣匹配度很高。AI coding 平台也需要这类调度:后台索引、低价值探索、长跑实验可以 interruptible;线上故障、关键验证、即将合并的重构应该抢占资源。好的 agent scheduler 不该只按提交顺序排队,而要理解任务价值、时效性和可中断性。

【Output Maxing:约束下最大化输出,而不是用更多资源掩盖系统设计差】

背景:Anjney 把新的工程学科称为 output maxing。它不是节省成本那么简单,而是在模型、架构、标准、算力和组织之间寻找约束下的最优输出。Anthropic 早期选择 Transformer 并持续加码,被他看作一种标准化带来的速度优势。

从工程视角看,这件事很简单:就是输出最大化。你不能一边承认苦涩教训成立,一边把几十万张新卡丢给次优的模型扩展方式;也不能同时维护五十种架构,最后没有足够标准化。

Anthropic 速度很快的一个原因,是他们选定 Transformer 架构,然后坚定加码。新架构当然值得探索,但在关键阶段,过度分散会拖慢 scaling。

全栈对齐在任何组织和系统里都很难。系统小的时候反馈回路紧,天然更对齐;规模越大,分工越多,抽象越多。只要有 API 接口,就会有损耗,就会有沟通损失。

兴趣匹配度很高。这段可以接到上下文工程的核心问题:多 agent、工具调用、子任务拆分、memory 和执行器都是 API 边界。真正困难的不是拆得更细,而是在规模扩大时减少有损传输,让上下文、意图和反馈仍然闭环。

【标准化与协同设计:不要每条战线都打,创新要押在真正瓶颈上】

背景:聊到非 NVIDIA 芯片时,Anjney 提到 MatX 的一个选择:采用 NVIDIA 数据中心参考架构,让芯片能插进现有站点,把创新集中在系统协同设计和逻辑 die 上。这是一个很典型的系统取舍:复用事实标准,聚焦高杠杆瓶颈。

做一家新芯片公司时,不能每条战线都打。MatX 选择让自己的芯片从输入输出、机架占地和数据中心标准上接近 NVIDIA 参考架构,把主要创新集中在系统协同设计上,因为那里才有大量收益。

但协同设计有一个风险:你必须尽早看到下一代模型如何变化,因为芯片流片要两年。Google 内部可以让 TPU 团队和模型团队坐得很近;一旦创业公司站到信任边界之外,反馈回路就会变长。

算力市场真正难的也不是撮合,而是信任边界。一层栈不信任另一层栈,不愿意给对方可见性,资本、运营和基础设施之间都会产生低效。

兴趣匹配度很高。AI 产品和 coding agent 也一样:不要同时重做 IDE、模型、运行时、部署、评测和权限系统。复用成熟标准,把差异化放在真实瓶颈上;同时争取更靠近真实任务流,因为上下文可见性本身就是能力来源。

【Anthropic 破解 Coding:运气眷顾准备好的系统】

背景:访谈后半段最值得保留的是关于 Anthropic 为什么做出 coding 能力。Anjney 没把它解释成一次偶然的骰子,而是解释成长期准备、正确上下文数据、开发者反馈、资源约束和 P0 选择共同作用的结果。

你当然可以说他们走运了,但 Anthropic 是过去四年最有准备的公司。当正确的上下文数据、正确的开发者反馈、正确的代码差异进入系统时,所谓好运才会被接住。

早期他们太难了,只能用少得多的资源做多得多的事,于是被迫极其高效。你可以把这叫运气,但运气眷顾准备好的头脑。

他们从第一天起的最高优先级就是编程。机制是:如果破解编程,就能破解 AGI。编程是一种极其通用的能力,可以加速电脑上的各种工作;一旦能加速这些工作,就更接近通用智能。

兴趣匹配度很高。这把 AI coding 从一个产品赛道提升成能力路线图:coding 不是因为开发者愿意付费所以重要,而是因为它把模型接入了电脑上的通用工作空间。真正的优势来自长期 P0、数据回路和组织取舍,而不是某次 benchmark 幸运领先。

【文化不是护城河,而是每天重复的行动】

背景:Anjney 对文化的判断很克制:文化不是稳定护城河,而是脆弱的系统。很多 AI lab 有现金、有算力,却仍然交付不了 SOTA,问题可能在于团队每天的行动没有持续证明使命对齐。

文化不是一组信念,而是一组行动。如果你停止做那些证明使命一致性的行动,文化就会开始磨损。

它不是稳定护城河,而是脆弱的东西,需要像花园一样每天照料。真正难以追赶的,是你建立了一套能持续照料这座花园的系统。

资源稀缺会迫使团队定义自己愿意为之牺牲一切的 P0。太早、太快拿到太多钱的团队,反而可能没有机会把这个 P0 逼出来,文化也会更脆。

兴趣匹配度高。它适合汉松从技术领导力角度看 AI 团队:现金、算力和人才是必要条件,但不是充分条件。使命如何被日常取舍兑现,决定团队能不能把能力、数据、工程和安全持续压到同一个方向上。

整体评价:兴趣匹配度很高。这篇最值得带走的不是 AMP 这个公司本身,而是它给出了一套可迁移的系统语言:利用率要分清占用和有效产出,扩张要处理边界损耗,资源要能池化和动态优先级,组织要用 P0 把行动对齐。把这些迁移到 Agent 和 AI coding,就是一个很清晰的问题:未来的竞争不是谁调用了更多模型,而是谁能把模型、上下文、工具、调度和文化组织成更少浪费的输出系统。


订阅 AI Highlight

分享这篇文章:


下一篇
Lenny 社群智慧:付费不用、Fractional CPO 与团队上下文治理