马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

全球首个GW级超算集群Colossus 2震撼上线

刚刚,全球首个GW级超算集群Colossus 2,正式投入运行

马斯克兴奋地宣布:

这是全球首个达到1GW的超算集群,4月还将进一步升级至1.5GW。

马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

网友直呼疯狂:「1.5GW,光是插座估计都得给墙壁装满了。」

马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

有了这剂算力强心针,Grok的忠实拥趸已经开始畅想Grok 5的统治时代。

马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

但在全网狂欢的背后,一个严峻的隐忧正在浮现——2026年夏天,美国13个州的6700万居民,可能因数据中心激增的电力需求而面临停电风险

全球首个GW级训练集群

马斯克的执行力再次令人惊叹。不依赖亚马逊或微软,也未借助“星际之门”计划,他凭借一己之力在孟菲斯建起了一座功率达1GW的超算集群。

前一代超算集群Colossus 1从无到有仅用了122天,配备了约20万颗英伟达H100/H200和约3万颗英伟达GB200 NVL72。而在此基础上规模翻了好几倍、功率达到1GW的Colossus 2,其建设周期也仅用了不到一年。

1GW是什么概念?

一般来说,1GW可以为75万户家庭供电,相当于高峰时期的旧金山。一座核电站的功率也大约在1GW左右。

如果按马斯克所说,今年4月Colossus 2将升级至1.5GW,并最终达到2GW的总装机容量,其耗电量将与美国大多数主要城市的用电量相当。

按照规划,彻底完工后的Colossus 2将内置55.5万张GPU,规模远超Meta的15万、微软的10万以及谷歌的分布式基础设施。而这庞大的算力资源,将全部为Grok模型服务。

此前曾有爆料称,Grok 5的参数规模将达到惊人的6万亿左右,是Grok 4的两倍以上,其训练正是基于Colossus 2。当时就有观点预测,Grok 5将在拥有数十万张英伟达GPU的Colossus 2上训练,耗电量约为1GW。

马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

如今,Colossus 2已正式上线,1GW的算力条件恰好满足Grok 5的训练需求。随着xAI近期完成200亿美元的E轮融资,Grok 5的“规模扩展”筹码进一步增加,这意味着更大的模型参数、更快的训练与迭代速度。

当OpenAI还在为2027年的算力基础设施发愁时,xAI已经将一座“城市级”的AI工厂开机运行,将Grok 5提前推向了市场对下一代SOTA模型的期待中。

正如网友所说,AI时代,速度就是最强的护城河。

马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

电网危机隐现

然而,并非所有人都能因这种“速度”而受益。

据《华尔街日报》报道,美国非营利电网运营商PJM警告,未来可能在极端高温或严寒天气期间,对区域内的居民实施轮流断电。这意味着,美国13个州的6700万人,在今年夏天可能面临一个相当难熬的时期。

要理解这个问题,首先需要明白PJM的角色。PJM本质上是美国能源系统的交通指挥中心,它根据实时用电需求,协调发电厂何时增发、何时降载,以维持电网的供需平衡。

然而,大模型“大力出奇迹”的竞赛正在打破这种平衡。在数据中心建设热潮的推动下,PJM预计未来10年电力需求将以年均4.8%的速度增长。对于一个多年来需求变化不大的系统而言,这样的增速是罕见的。

一边是需求激增,另一边,电力供给的增长却相当缓慢。新建电厂的速度甚至跟不上老电厂的退役速度,电网容量正面临饱和。一旦供需出现偏差,电网频率就会波动,可能损坏发电厂等关键基础设施。

为避免系统性风险,PJM只能两害相权取其轻,选择在用电高峰期通过轮流停电来为电网卸压。

PJM并非没有尝试其他解决方案。去年9月,PJM曾提议数据中心在高峰时段主动降低用电量,或改从其他渠道获取电力支持。然而,亚马逊、谷歌、微软等科技巨头几乎都表示了反对,认为这是对数据中心行业的歧视

值得一提的是,PJM主要负责美国东海岸地区,而xAI的Colossus 2位于中南部,并不在PJM电网的直接覆盖范围内。同时,为减少对当地电网的冲击,xAI还部署了168个特斯拉Megapack电池储能系统,旨在用电高峰期提供电力缓冲,尽量避免周边居民遭遇停电。

参考链接:
[1]https://x.com/MilkRoadAI/status/2012558197240815665
[2]https://www.wsj.com/business/energy-oil/power-grid-ai-data-centers-1235f296


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18375

(0)
上一篇 2026年1月18日 下午12:50
下一篇 2026年1月18日 下午1:08

相关推荐

  • Tinker革新大模型训练:从“作坊炼丹”到“工业微调”的API革命

    当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时,它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语,从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单,标志着行业正从“作坊式炼丹”向…

    2026年1月7日
    6900
  • 强化学习云:大模型训练下半场的新引擎与基础设施革命

    2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…

    2026年1月12日
    5300
  • SonicMoE:开源软硬件协同加速方案,64块H100媲美96块性能,实现45%内存节省与1.86倍吞吐量提升

    关键词:混合专家模型(MoE)、SonicMoE、GPU 内核优化、内存高效算法、令牌舍入路由、细粒度稀疏 MoE SonicMoE 已开源,方案基于 CuTe-DSL 实现并提供 PyTorch 接口,采用宽松许可证:github.com/Dao-AILab/sonic-moe。未来研究将围绕两方面展开:一是扩展到 FP8、MXFP8、MXFP4 等低精度…

    2025年12月23日
    14900
  • 8元跑通RL全流程!潞晨云微调SDK:算法与Infra解耦,1人顶替整支团队

    大模型下半场的战火,已经从“暴力预训练”烧向了“后训练”战场。 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了“炼…

    2026年1月7日
    7000
  • Meta突破AI自主瓶颈:SSR自对弈框架让智能体摆脱人类数据依赖

    “超级智能”是 Meta 长期坚持的宏大愿景,其目标是构建能够超越人类专家水平的自主 AI 智能体。然而,这一雄心勃勃的目标也引发了内部的不同声音。前 Meta FAIR 负责人 Yann LeCun 曾评论道:“通往超级智能…在我看来完全是胡扯,这条路根本行不通。” 尽管如此,Meta 的研究仍在持续推进。在 AI 智能体应用的典型领域——编程中,基于大语…

    2026年1月2日
    7900