55万块GPU利用率仅11%？xAI的困境揭示AI军备竞赛下半场：买到只是第一步，用好才是关键

2026年5月5日下午6:15 • AI产业动态 • 阅读 200

AI时代堆积GPU，难道就是这种堆法？

马斯克旗下的xAI，其GPU资源利用率目前仅约11%。相关报告显示，其AI软件栈的优化效果并不理想。近日，《The Information》的报道引发了广泛关注。

目前，xAI在其Memphis和Colossus数据中心集群中运营着约55万块英伟达GPU，涵盖H100和H200两种型号，部分设备采用液冷散热配置。尽管这些GPU属于上一代产品（早于最新的Blackwell系列），但其规模已令人叹为观止。

拥有如此庞大的GPU存量，xAI的模型算力利用率（MFU，Model FLOPs Utilization）却只有11%。打个不太恰当的比方，在xAI已安装的50万块GPU中，实际可用的算力仅相当于约6万块GPU的水平。究竟是什么原因导致了如此低的效率？

首先，对于较小规模的部署环境（例如1000-10000块GPU），多节点间的协调计算通常不成问题。但随着服务器规模不断扩大，当需要集成数十万颗GPU时，设备的空闲时间会迅速累积，导致整体利用率急剧下滑。由此引发的软件栈内部一系列不一致性问题，正在xAI的实际运行中暴露无遗。

在超级集群中，GPU芯片本身的计算速度相对很快，瓶颈在于高带宽内存（HBM）的数据读写速度，以及成千上万台服务器之间网络传输的通信开销。只要数据传输出现微小延迟或网络拥堵，整个集群的GPU就会被迫“原地挂机”等待数据加载。

另一方面，AI模型的训练通常是间歇性的。GPU在实际计算时满载运转，但在研究人员分析训练结果、调整参数或处理数据管道时，大量设备就会处于闲置（Idle）状态。

虽然11%是一个显然偏低的数字，但The Information的报道也揭示了AI领域的一些行业潜规则：算力浪费是普遍现象。有些大厂的研究人员为了避免被管理层批评，或者害怕闲置的GPU配额被其他团队抢走，甚至会故意重复运行一些无意义的训练任务来“刷高”利用率数据。

不得不说，这么做也是为了保住团队自己的GPU配额。

当然，这并非xAI独有的难题，它实际上是整个AI行业普遍存在的一种结构性问题——AI基础设施要在如此庞大的规模下实现高效运行，是一项极其艰巨的挑战。

55万块GPU利用率仅11%？xAI的困境揭示AI军备竞赛下半场：买到只是第一步，用好才是关键

运行AI云基础设施所需的优化技能涵盖数据、算法、模型、计算、内核、交互（人类-AI-世界、智能体之间），以及全局优化，在工程上难度极高。

一些科技巨头着重优化了大规模基础设施堆栈，已经能够实现超过40%的利用率。Meta和谷歌便是此类典范，其GPU利用率分别高达43%和46%。

xAI遇到的困境证明了在当前的AI军备竞赛中，“买到GPU”只是第一步，用好才是关键。硬件规模已经超出了现有软件架构的调度能力。

不过，xAI已在着手解决这一问题，并设定了利用率达到50%的目标。尽管目前尚无确切的时间表，但其核心改进将聚焦于基础设施与软件堆栈的优化。随着未来工作负载逐步迁移至那些专为驱动“智能体AI”（Agentic AI）需求而设计的硬件平台之上，xAI极有可能将其庞大的GPU集群对外提供租赁服务。

马斯克也在寻求转变，押注于自研算力的“TeraFab”项目：一方面，他正在推动多款自研芯片，将其纳入xAI的“AI芯片家族”之中；另一方面，马斯克也希望借助英特尔的14A制程技术，为未来的xAI、SpaceX及其它相关业务打造尖端解决方案。

xAI的困境提醒了所有追赶者：AI竞赛的下半场，拼的可能不再是谁能买到更多显卡。

参考内容：

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33380