来源
- 原始链接:https://www.latent.space/p/anj?utm_source=post-email-title&publication_id=1084089&post_id=202359797&utm_campaign=email-post-title&isFreemail=true&r=27lk8i&triedRedirect=true&utm_medium=email
- 来源类型:Substack 访谈逐字稿
- 来源标题:AI 算力效率革命:从 GPU 利用率到 AMP 的”FLOPs 电网”愿景——Anjney Midha 深度访谈解析
【GPU 竞赛的盲点:占用了硬件,不等于产生了有效智能】
背景:这期访谈最有价值的起点,是把 AI scaling 从买更多 GPU 改写成如何把已有 GPU 变成真实训练进展。Anjney 区分了两种利用率:节点有没有被分配出去,以及模型实际把 FLOPs 用起来的比例。前者在 Google 低于 95% 就接近事故,后者今天最佳水平也只是 60% 到 70%。
大规模集群里至少要分清两件事:卡有没有被占用,以及模型有没有真正把算力吃进去。很多单租户集群连前者都没有做好,而真正的 MFU 又远低于理论上限。
这首先是一个领导力问题,也就是资本、部署、管理和产出衡量是否真的对齐。链条上每多一层人,起点只偏几度,到规模化之后就会偏得很远。
AI 能力确实是新的,但这不意味着基础设施常识可以被抛弃。恰恰因为规模更大、浪费更贵,AI scaling 更需要迭代式上线、稳定基础设施和负责任的建设方式。
兴趣匹配度很高。它可以直接迁移到 Agent 系统:不要只看并发多少 agent、消耗多少 token、调用多少工具,而要看有效推理、有效编辑、有效验证的比例。Agent 越强,资源占用和真实产出之间的差距越值得被单独测量。
【FLOPs 电网:大而全的集成之外,还有池化和调度这一条路】
背景:当被问到为什么 AMP 作为独立基础设施层比全栈 AI lab 更对齐时,Anjney 给出的不是商业解释,而是系统设计解释。系统有两条经典路径:把流程压进一个节点里做垂直整合,或者把资源抽出来,在多个节点之间池化利用。
系统设计里有两种架构:一种是整合,把很多流程压缩到一个节点;另一种是池化,把资源从单个节点里抽出来,让多个节点共享。AMP 选择的是后者:做一个跨云、跨芯片的算力网格,让 FLOPs 像电力一样流动。
电网历史里,最持久的系统往往不是自己拥有全部资产的公司,而是中立协调者。不同工厂在不同时间有峰值需求,钢厂夜里高峰,鞋厂白天高峰。把不相关的需求放在一起池化,每个参与者都能减少浪费。
所以 AMP 更像独立系统运营商:云厂商是供应方,VC 和研究实验室是需求方,关键能力不是拥有所有资产,而是协调供需、错峰和标准。
兴趣匹配度很高。这是 Agent infra 的好类比:一个系统可以选择做一个全能 agent,也可以把 memory、tool、scheduler、eval、权限、执行器做成可共享的网格。后者的核心不是模型更聪明,而是让稀缺资源在任务之间流动起来。
【可中断需求:真正的调度不是 FIFO,而是让任务价值决定优先级】
背景:AMP 的设想不只是把算力连起来,还包括保证基础负载和允许研究型工作负载短期尖峰。Google 内部类似系统用过可中断需求和信用竞价机制,让更高价值的任务在资源紧张时抢占低优先级任务。
每个团队都需要保证基础容量,但研究任务常常要在短时间内快速冲高。更合理的设计是:基础工作负载有保底,研究尖峰可以按更短周期临时扩张。
一个关键创新是可中断需求。任务先排队,再通过信用系统动态竞价。某个任务值 10 个信用,另一个任务只值 5 个信用,那么更高价值的任务就获得优先级,低价值任务被中断或延后。
这不是简单的市场崇拜,因为有些时刻确实需要中央指挥,全力压到一个方向上。问题在于系统要同时支持基础容量、弹性尖峰、动态优先级和必要时的集中决策。
兴趣匹配度很高。AI coding 平台也需要这类调度:后台索引、低价值探索、长跑实验可以 interruptible;线上故障、关键验证、即将合并的重构应该抢占资源。好的 agent scheduler 不该只按提交顺序排队,而要理解任务价值、时效性和可中断性。
【Output Maxing:约束下最大化输出,而不是用更多资源掩盖系统设计差】
背景:Anjney 把新的工程学科称为 output maxing。它不是节省成本那么简单,而是在模型、架构、标准、算力和组织之间寻找约束下的最优输出。Anthropic 早期选择 Transformer 并持续加码,被他看作一种标准化带来的速度优势。
从工程视角看,这件事很简单:就是输出最大化。你不能一边承认苦涩教训成立,一边把几十万张新卡丢给次优的模型扩展方式;也不能同时维护五十种架构,最后没有足够标准化。
Anthropic 速度很快的一个原因,是他们选定 Transformer 架构,然后坚定加码。新架构当然值得探索,但在关键阶段,过度分散会拖慢 scaling。
全栈对齐在任何组织和系统里都很难。系统小的时候反馈回路紧,天然更对齐;规模越大,分工越多,抽象越多。只要有 API 接口,就会有损耗,就会有沟通损失。
兴趣匹配度很高。这段可以接到上下文工程的核心问题:多 agent、工具调用、子任务拆分、memory 和执行器都是 API 边界。真正困难的不是拆得更细,而是在规模扩大时减少有损传输,让上下文、意图和反馈仍然闭环。
【标准化与协同设计:不要每条战线都打,创新要押在真正瓶颈上】
背景:聊到非 NVIDIA 芯片时,Anjney 提到 MatX 的一个选择:采用 NVIDIA 数据中心参考架构,让芯片能插进现有站点,把创新集中在系统协同设计和逻辑 die 上。这是一个很典型的系统取舍:复用事实标准,聚焦高杠杆瓶颈。
做一家新芯片公司时,不能每条战线都打。MatX 选择让自己的芯片从输入输出、机架占地和数据中心标准上接近 NVIDIA 参考架构,把主要创新集中在系统协同设计上,因为那里才有大量收益。
但协同设计有一个风险:你必须尽早看到下一代模型如何变化,因为芯片流片要两年。Google 内部可以让 TPU 团队和模型团队坐得很近;一旦创业公司站到信任边界之外,反馈回路就会变长。
算力市场真正难的也不是撮合,而是信任边界。一层栈不信任另一层栈,不愿意给对方可见性,资本、运营和基础设施之间都会产生低效。
兴趣匹配度很高。AI 产品和 coding agent 也一样:不要同时重做 IDE、模型、运行时、部署、评测和权限系统。复用成熟标准,把差异化放在真实瓶颈上;同时争取更靠近真实任务流,因为上下文可见性本身就是能力来源。
【Anthropic 破解 Coding:运气眷顾准备好的系统】
背景:访谈后半段最值得保留的是关于 Anthropic 为什么做出 coding 能力。Anjney 没把它解释成一次偶然的骰子,而是解释成长期准备、正确上下文数据、开发者反馈、资源约束和 P0 选择共同作用的结果。
你当然可以说他们走运了,但 Anthropic 是过去四年最有准备的公司。当正确的上下文数据、正确的开发者反馈、正确的代码差异进入系统时,所谓好运才会被接住。
早期他们太难了,只能用少得多的资源做多得多的事,于是被迫极其高效。你可以把这叫运气,但运气眷顾准备好的头脑。
他们从第一天起的最高优先级就是编程。机制是:如果破解编程,就能破解 AGI。编程是一种极其通用的能力,可以加速电脑上的各种工作;一旦能加速这些工作,就更接近通用智能。
兴趣匹配度很高。这把 AI coding 从一个产品赛道提升成能力路线图:coding 不是因为开发者愿意付费所以重要,而是因为它把模型接入了电脑上的通用工作空间。真正的优势来自长期 P0、数据回路和组织取舍,而不是某次 benchmark 幸运领先。
【文化不是护城河,而是每天重复的行动】
背景:Anjney 对文化的判断很克制:文化不是稳定护城河,而是脆弱的系统。很多 AI lab 有现金、有算力,却仍然交付不了 SOTA,问题可能在于团队每天的行动没有持续证明使命对齐。
文化不是一组信念,而是一组行动。如果你停止做那些证明使命一致性的行动,文化就会开始磨损。
它不是稳定护城河,而是脆弱的东西,需要像花园一样每天照料。真正难以追赶的,是你建立了一套能持续照料这座花园的系统。
资源稀缺会迫使团队定义自己愿意为之牺牲一切的 P0。太早、太快拿到太多钱的团队,反而可能没有机会把这个 P0 逼出来,文化也会更脆。
兴趣匹配度高。它适合汉松从技术领导力角度看 AI 团队:现金、算力和人才是必要条件,但不是充分条件。使命如何被日常取舍兑现,决定团队能不能把能力、数据、工程和安全持续压到同一个方向上。
整体评价:兴趣匹配度很高。这篇最值得带走的不是 AMP 这个公司本身,而是它给出了一套可迁移的系统语言:利用率要分清占用和有效产出,扩张要处理边界损耗,资源要能池化和动态优先级,组织要用 P0 把行动对齐。把这些迁移到 Agent 和 AI coding,就是一个很清晰的问题:未来的竞争不是谁调用了更多模型,而是谁能把模型、上下文、工具、调度和文化组织成更少浪费的输出系统。