55万块GPU利用率仅11%?xAI的困境揭示AI军备竞赛下半场:买到只是第一步,用好才是关键

AI时代堆积GPU,难道就是这种堆法?

马斯克旗下的xAI,其GPU资源利用率目前仅约11%。相关报告显示,其AI软件栈的优化效果并不理想。近日,《The Information》的报道引发了广泛关注。

55万块GPU利用率仅11%?xAI的困境揭示AI军备竞赛下半场:买到只是第一步,用好才是关键

目前,xAI在其Memphis和Colossus数据中心集群中运营着约55万块英伟达GPU,涵盖H100和H200两种型号,部分设备采用液冷散热配置。尽管这些GPU属于上一代产品(早于最新的Blackwell系列),但其规模已令人叹为观止。

拥有如此庞大的GPU存量,xAI的模型算力利用率(MFU,Model FLOPs Utilization)却只有11%。打个不太恰当的比方,在xAI已安装的50万块GPU中,实际可用的算力仅相当于约6万块GPU的水平。究竟是什么原因导致了如此低的效率?

首先,对于较小规模的部署环境(例如1000-10000块GPU),多节点间的协调计算通常不成问题。但随着服务器规模不断扩大,当需要集成数十万颗GPU时,设备的空闲时间会迅速累积,导致整体利用率急剧下滑。由此引发的软件栈内部一系列不一致性问题,正在xAI的实际运行中暴露无遗。

在超级集群中,GPU芯片本身的计算速度相对很快,瓶颈在于高带宽内存(HBM)的数据读写速度,以及成千上万台服务器之间网络传输的通信开销。只要数据传输出现微小延迟或网络拥堵,整个集群的GPU就会被迫“原地挂机”等待数据加载。

另一方面,AI模型的训练通常是间歇性的。GPU在实际计算时满载运转,但在研究人员分析训练结果、调整参数或处理数据管道时,大量设备就会处于闲置(Idle)状态。

虽然11%是一个显然偏低的数字,但The Information的报道也揭示了AI领域的一些行业潜规则:算力浪费是普遍现象。有些大厂的研究人员为了避免被管理层批评,或者害怕闲置的GPU配额被其他团队抢走,甚至会故意重复运行一些无意义的训练任务来“刷高”利用率数据。

不得不说,这么做也是为了保住团队自己的GPU配额。

当然,这并非xAI独有的难题,它实际上是整个AI行业普遍存在的一种结构性问题——AI基础设施要在如此庞大的规模下实现高效运行,是一项极其艰巨的挑战。

55万块GPU利用率仅11%?xAI的困境揭示AI军备竞赛下半场:买到只是第一步,用好才是关键

运行AI云基础设施所需的优化技能涵盖数据、算法、模型、计算、内核、交互(人类-AI-世界、智能体之间),以及全局优化,在工程上难度极高。

一些科技巨头着重优化了大规模基础设施堆栈,已经能够实现超过40%的利用率。Meta和谷歌便是此类典范,其GPU利用率分别高达43%和46%。

xAI遇到的困境证明了在当前的AI军备竞赛中,“买到GPU”只是第一步,用好才是关键。硬件规模已经超出了现有软件架构的调度能力。

不过,xAI已在着手解决这一问题,并设定了利用率达到50%的目标。尽管目前尚无确切的时间表,但其核心改进将聚焦于基础设施与软件堆栈的优化。随着未来工作负载逐步迁移至那些专为驱动“智能体AI”(Agentic AI)需求而设计的硬件平台之上,xAI极有可能将其庞大的GPU集群对外提供租赁服务。

马斯克也在寻求转变,押注于自研算力的“TeraFab”项目:一方面,他正在推动多款自研芯片,将其纳入xAI的“AI芯片家族”之中;另一方面,马斯克也希望借助英特尔的14A制程技术,为未来的xAI、SpaceX及其它相关业务打造尖端解决方案。

xAI的困境提醒了所有追赶者:AI竞赛的下半场,拼的可能不再是谁能买到更多显卡。

参考内容:

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33380

(0)
上一篇 2026年5月5日 下午6:08
下一篇 2026年5月5日 下午6:17

相关推荐

  • 美团视频生成模型来了!一出手就是开源SOTA

    美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

    2025年10月27日
    47700
  • 豆包APP悄然启动付费订阅,AI助手商业化迎来新阶段

    豆包APP悄然启动付费订阅,AI助手商业化迎来新阶段 五一假期即将结束之际,一向低调的豆包突然搞了个大动作,直接冲上热搜: 这款名副其实的国民级AI助手,开始收费了。 在苹果App Store中,订阅服务声明已经悄然上线。除了免费的基础版外,订阅服务分为三个档次: 标准版:连续包月每月68元,连续包年每年688元; 加强版:连续包月每月200元,连续包年每年…

    2026年5月5日
    41100
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    35500
  • 全球排名算法重塑高等教育:当大学灵魂被数字指标量化

    Nature近期发表的一篇深度评论揭示了高等教育领域一个令人不安的现实:全球大学排名系统已从外部参考工具演变为重塑大学内部运作的核心力量。Elizabeth Gadd在评论中尖锐指出,若想实现真正的大学改革,必须首先解构这场以算法和数据驱动的“排名游戏”。这一观点并非危言耸听,而是基于对全球高等教育体系结构性变化的系统性观察。 排名系统的渗透已远远超越表面声…

    2025年11月28日
    36600
  • arXiv告别康奈尔大学,走向独立:35年预印本平台面临AI投稿井喷与质量博弈

    每次打开 arXiv 都能看到的那个「康奈尔大学」标识,很有可能将成为历史了。 最近,arXiv 发布官方信息称:「经过与康奈尔大学数十年富有成效的合作,并在西蒙斯基金会的支持下,arXiv 正转型为独立的非营利组织,这也标志着这个开创开放获取科学先河的平台,迈入了其 35 年发展历程的全新阶段。」 与此同时,arXiv 还发布了一个 CEO 职位的招聘公告…

    2026年3月15日
    51300