Epoch AI、Fujitsu 等多方数据显示,前沿实验室与企业 GPU 实际利用率不足三成,结构性浪费已成行业共识。
当开发者反复遭遇「额度已用完」的提示,AI 公司的统一回应是「缺算力」。但 Epoch AI 的估算显示,到 2025 年底,OpenAI 等效拥有的算力约相当于 170 万块 H100,相较 2023 年的 10 万块两年内暴增 17 倍。一边是全球科技巨头每个季度砸下数百亿美元抢购芯片,一边却是大量 GPU 处于闲置状态——「缺算力」的叙事与现实之间出现了明显裂缝。
AI 基础设施公司 AMP 创始人 Anjney Midha 在播客 Latent Space 中给出了一个尖锐判断:「像 xAI 这样的前沿实验室,GPU 利用率可能不到 10%,这只是真正问题的冰山一角。」MFU(Model Flops Utilization,模型浮点运算利用率)是衡量 GPU 算力真正参与模型计算的指标,若集群 MFU 只有 10%,意味着花 5 亿美元买来的设备,有效算力只相当于 5000 万美元,剩余 4.5 亿美元在空转。
Epoch AI 分析师 Josh You 的报告指出,前沿实验室算力的采购速度远超消耗速度,大量资源处于「储备」或「闲置」状态。Fujitsu 在 2024 年《AI 基础设施状态报告》中给出的企业端数据更为刺眼:超过 75% 的企业在峰值负载下,GPU 利用率仍低于 70%。VentureBeat 基于类似数据进一步判断:「95% 的 AI 基础设施开支被浪费了。」
利用率低并非因为没有任务可跑,而是数据准备跟不上计算节奏。aixenergy 的研究显示,AI 训练过程中 GPU 有 30% 到 65% 的时间处于闲置,原因在于数据清洗、标注、分词、打包等预处理步骤的 IO 速度远低于 GPU 的浮点运算能力。GPU 的计算速度以 TFLOPS 计,而存储系统的吞吐能力成为瓶颈,导致计算单元在等数据。
arXiv 上关于 GPU 能耗的论文进一步揭示了两个隐蔽问题:其一,即便 GPU 进入「深层空闲状态」仍持续大量耗电,Epoch AI 数据显示 GPU 数据中心总功耗中约 40% 直接来自 GPU 本身;其二,行业通用的「集群级 SM 利用率」指标并不能反映真实能效,SM 看似在运转,实际上很多计算周期在做数据搬运、内存同步、等待通信等「假工作」。这解释了为何部分团队报告 70% 的利用率,训练速度却远低于预期。
Midha 将这一转向概括为「outputmaxxing」(产出最大化),并给出基准线:目前最佳实践者的 MFU 大约在 60% 到 70%。对于多数 AI 公司来说,若能将利用率从 10% 提升到 60%,等同于在不增加硬件投入的前提下把有效算力扩大 6 倍。
历史经验提供了参照。2000 年代初企业物理服务器平均利用率仅 10% 到 15%,VMware 虚拟化与 Docker 容器化相继推动利用率提升至 60% 到 70%,催生了万亿美元的云计算产业。AI 算力当前所处的位置,类似 2005 年的服务器市场——问题已被识别,系统性解决方案仍在酝酿。
商业模式的转变也在加速这一进程。早期「固定费用许可」和「捆绑 Token」模式因边际成本为零,企业缺乏优化利用率的动力。随着行业逐步转向按使用量计费,闲置成本正在从「被忽略的背景噪音」变为「生产阶段的紧急事项」。
AI 竞赛此前的叙事主线是规模:谁拥有最多 GPU、谁训练了最大模型、谁花了最多钱。但 Midha 的判断暗示了一场范式转移——护城河正在从「谁能买到更多算力」转向「谁能从同样算力中榨取更多智能」。前者是资本的消耗战,后者是工程的精密战,其上限取决于对计算物理、分布式系统与数据工程的理解深度。
Fujitsu 在 2024 年发布的技术白皮书直接以「最大化 GPU 利用率」为题,DevZero、Prodia、Mirantis 等基础设施公司也纷纷发文讨论 80% GPU 闲置的成因与优化策略。行业范围内的集体焦虑本身是一个信号:问题已经大到无人能继续装作看不见。
算力紧缺或许只是表象,真正稀缺的是把已有算力高效转化为智能的能力。