AI 算力输出最大化：FLOPs 电网与 Anthropic 的 P0

来源

原始链接：https://www.latent.space/p/anj?utm_source=post-email-title&publication_id=1084089&post_id=202359797&utm_campaign=email-post-title&isFreemail=true&r=27lk8i&triedRedirect=true&utm_medium=email
来源类型：Substack 访谈逐字稿
来源标题：AI 算力效率革命：从 GPU 利用率到 AMP 的”FLOPs 电网”愿景——Anjney Midha 深度访谈解析

【GPU 竞赛的盲点：占用了硬件，不等于产生了有效智能】

背景：这期访谈最有价值的起点，是把 AI scaling 从买更多 GPU 改写成如何把已有 GPU 变成真实训练进展。Anjney 区分了两种利用率：节点有没有被分配出去，以及模型实际把 FLOPs 用起来的比例。前者在 Google 低于 95% 就接近事故，后者今天最佳水平也只是 60% 到 70%。

大规模集群里至少要分清两件事：卡有没有被占用，以及模型有没有真正把算力吃进去。很多单租户集群连前者都没有做好，而真正的 MFU 又远低于理论上限。

这首先是一个领导力问题，也就是资本、部署、管理和产出衡量是否真的对齐。链条上每多一层人，起点只偏几度，到规模化之后就会偏得很远。

AI 能力确实是新的，但这不意味着基础设施常识可以被抛弃。恰恰因为规模更大、浪费更贵，AI scaling 更需要迭代式上线、稳定基础设施和负责任的建设方式。

兴趣匹配度很高。它可以直接迁移到 Agent 系统：不要只看并发多少 agent、消耗多少 token、调用多少工具，而要看有效推理、有效编辑、有效验证的比例。Agent 越强，资源占用和真实产出之间的差距越值得被单独测量。

【FLOPs 电网：大而全的集成之外，还有池化和调度这一条路】

背景：当被问到为什么 AMP 作为独立基础设施层比全栈 AI lab 更对齐时，Anjney 给出的不是商业解释，而是系统设计解释。系统有两条经典路径：把流程压进一个节点里做垂直整合，或者把资源抽出来，在多个节点之间池化利用。

系统设计里有两种架构：一种是整合，把很多流程压缩到一个节点；另一种是池化，把资源从单个节点里抽出来，让多个节点共享。AMP 选择的是后者：做一个跨云、跨芯片的算力网格，让 FLOPs 像电力一样流动。

电网历史里，最持久的系统往往不是自己拥有全部资产的公司，而是中立协调者。不同工厂在不同时间有峰值需求，钢厂夜里高峰，鞋厂白天高峰。把不相关的需求放在一起池化，每个参与者都能减少浪费。

所以 AMP 更像独立系统运营商：云厂商是供应方，VC 和研究实验室是需求方，关键能力不是拥有所有资产，而是协调供需、错峰和标准。

兴趣匹配度很高。这是 Agent infra 的好类比：一个系统可以选择做一个全能 agent，也可以把 memory、tool、scheduler、eval、权限、执行器做成可共享的网格。后者的核心不是模型更聪明，而是让稀缺资源在任务之间流动起来。

【可中断需求：真正的调度不是 FIFO，而是让任务价值决定优先级】

背景：AMP 的设想不只是把算力连起来，还包括保证基础负载和允许研究型工作负载短期尖峰。Google 内部类似系统用过可中断需求和信用竞价机制，让更高价值的任务在资源紧张时抢占低优先级任务。

每个团队都需要保证基础容量，但研究任务常常要在短时间内快速冲高。更合理的设计是：基础工作负载有保底，研究尖峰可以按更短周期临时扩张。

一个关键创新是可中断需求。任务先排队，再通过信用系统动态竞价。某个任务值 10 个信用，另一个任务只值 5 个信用，那么更高价值的任务就获得优先级，低价值任务被中断或延后。

这不是简单的市场崇拜，因为有些时刻确实需要中央指挥，全力压到一个方向上。问题在于系统要同时支持基础容量、弹性尖峰、动态优先级和必要时的集中决策。

兴趣匹配度很高。AI coding 平台也需要这类调度：后台索引、低价值探索、长跑实验可以 interruptible；线上故障、关键验证、即将合并的重构应该抢占资源。好的 agent scheduler 不该只按提交顺序排队，而要理解任务价值、时效性和可中断性。

【Output Maxing：约束下最大化输出，而不是用更多资源掩盖系统设计差】

背景：Anjney 把新的工程学科称为 output maxing。它不是节省成本那么简单，而是在模型、架构、标准、算力和组织之间寻找约束下的最优输出。Anthropic 早期选择 Transformer 并持续加码，被他看作一种标准化带来的速度优势。

从工程视角看，这件事很简单：就是输出最大化。你不能一边承认苦涩教训成立，一边把几十万张新卡丢给次优的模型扩展方式；也不能同时维护五十种架构，最后没有足够标准化。

Anthropic 速度很快的一个原因，是他们选定 Transformer 架构，然后坚定加码。新架构当然值得探索，但在关键阶段，过度分散会拖慢 scaling。

全栈对齐在任何组织和系统里都很难。系统小的时候反馈回路紧，天然更对齐；规模越大，分工越多，抽象越多。只要有 API 接口，就会有损耗，就会有沟通损失。

兴趣匹配度很高。这段可以接到上下文工程的核心问题：多 agent、工具调用、子任务拆分、memory 和执行器都是 API 边界。真正困难的不是拆得更细，而是在规模扩大时减少有损传输，让上下文、意图和反馈仍然闭环。

【标准化与协同设计：不要每条战线都打，创新要押在真正瓶颈上】

背景：聊到非 NVIDIA 芯片时，Anjney 提到 MatX 的一个选择：采用 NVIDIA 数据中心参考架构，让芯片能插进现有站点，把创新集中在系统协同设计和逻辑 die 上。这是一个很典型的系统取舍：复用事实标准，聚焦高杠杆瓶颈。

做一家新芯片公司时，不能每条战线都打。MatX 选择让自己的芯片从输入输出、机架占地和数据中心标准上接近 NVIDIA 参考架构，把主要创新集中在系统协同设计上，因为那里才有大量收益。

但协同设计有一个风险：你必须尽早看到下一代模型如何变化，因为芯片流片要两年。Google 内部可以让 TPU 团队和模型团队坐得很近；一旦创业公司站到信任边界之外，反馈回路就会变长。

算力市场真正难的也不是撮合，而是信任边界。一层栈不信任另一层栈，不愿意给对方可见性，资本、运营和基础设施之间都会产生低效。

兴趣匹配度很高。AI 产品和 coding agent 也一样：不要同时重做 IDE、模型、运行时、部署、评测和权限系统。复用成熟标准，把差异化放在真实瓶颈上；同时争取更靠近真实任务流，因为上下文可见性本身就是能力来源。

【Anthropic 破解 Coding：运气眷顾准备好的系统】

背景：访谈后半段最值得保留的是关于 Anthropic 为什么做出 coding 能力。Anjney 没把它解释成一次偶然的骰子，而是解释成长期准备、正确上下文数据、开发者反馈、资源约束和 P0 选择共同作用的结果。

你当然可以说他们走运了，但 Anthropic 是过去四年最有准备的公司。当正确的上下文数据、正确的开发者反馈、正确的代码差异进入系统时，所谓好运才会被接住。

早期他们太难了，只能用少得多的资源做多得多的事，于是被迫极其高效。你可以把这叫运气，但运气眷顾准备好的头脑。

他们从第一天起的最高优先级就是编程。机制是：如果破解编程，就能破解 AGI。编程是一种极其通用的能力，可以加速电脑上的各种工作；一旦能加速这些工作，就更接近通用智能。

兴趣匹配度很高。这把 AI coding 从一个产品赛道提升成能力路线图：coding 不是因为开发者愿意付费所以重要，而是因为它把模型接入了电脑上的通用工作空间。真正的优势来自长期 P0、数据回路和组织取舍，而不是某次 benchmark 幸运领先。

【文化不是护城河，而是每天重复的行动】

背景：Anjney 对文化的判断很克制：文化不是稳定护城河，而是脆弱的系统。很多 AI lab 有现金、有算力，却仍然交付不了 SOTA，问题可能在于团队每天的行动没有持续证明使命对齐。

文化不是一组信念，而是一组行动。如果你停止做那些证明使命一致性的行动，文化就会开始磨损。

它不是稳定护城河，而是脆弱的东西，需要像花园一样每天照料。真正难以追赶的，是你建立了一套能持续照料这座花园的系统。

资源稀缺会迫使团队定义自己愿意为之牺牲一切的 P0。太早、太快拿到太多钱的团队，反而可能没有机会把这个 P0 逼出来，文化也会更脆。

兴趣匹配度高。它适合汉松从技术领导力角度看 AI 团队：现金、算力和人才是必要条件，但不是充分条件。使命如何被日常取舍兑现，决定团队能不能把能力、数据、工程和安全持续压到同一个方向上。

整体评价：兴趣匹配度很高。这篇最值得带走的不是 AMP 这个公司本身，而是它给出了一套可迁移的系统语言：利用率要分清占用和有效产出，扩张要处理边界损耗，资源要能池化和动态优先级，组织要用 P0 把行动对齐。把这些迁移到 Agent 和 AI coding，就是一个很清晰的问题：未来的竞争不是谁调用了更多模型，而是谁能把模型、上下文、工具、调度和文化组织成更少浪费的输出系统。