全球首个GW级超算集群Colossus 2震撼上线
刚刚,全球首个GW级超算集群Colossus 2,正式投入运行。
马斯克兴奋地宣布:
这是全球首个达到1GW的超算集群,4月还将进一步升级至1.5GW。

网友直呼疯狂:「1.5GW,光是插座估计都得给墙壁装满了。」

有了这剂算力强心针,Grok的忠实拥趸已经开始畅想Grok 5的统治时代。

但在全网狂欢的背后,一个严峻的隐忧正在浮现——2026年夏天,美国13个州的6700万居民,可能因数据中心激增的电力需求而面临停电风险。
全球首个GW级训练集群
马斯克的执行力再次令人惊叹。不依赖亚马逊或微软,也未借助“星际之门”计划,他凭借一己之力在孟菲斯建起了一座功率达1GW的超算集群。
前一代超算集群Colossus 1从无到有仅用了122天,配备了约20万颗英伟达H100/H200和约3万颗英伟达GB200 NVL72。而在此基础上规模翻了好几倍、功率达到1GW的Colossus 2,其建设周期也仅用了不到一年。
1GW是什么概念?
一般来说,1GW可以为75万户家庭供电,相当于高峰时期的旧金山。一座核电站的功率也大约在1GW左右。
如果按马斯克所说,今年4月Colossus 2将升级至1.5GW,并最终达到2GW的总装机容量,其耗电量将与美国大多数主要城市的用电量相当。
按照规划,彻底完工后的Colossus 2将内置55.5万张GPU,规模远超Meta的15万、微软的10万以及谷歌的分布式基础设施。而这庞大的算力资源,将全部为Grok模型服务。
此前曾有爆料称,Grok 5的参数规模将达到惊人的6万亿左右,是Grok 4的两倍以上,其训练正是基于Colossus 2。当时就有观点预测,Grok 5将在拥有数十万张英伟达GPU的Colossus 2上训练,耗电量约为1GW。

如今,Colossus 2已正式上线,1GW的算力条件恰好满足Grok 5的训练需求。随着xAI近期完成200亿美元的E轮融资,Grok 5的“规模扩展”筹码进一步增加,这意味着更大的模型参数、更快的训练与迭代速度。
当OpenAI还在为2027年的算力基础设施发愁时,xAI已经将一座“城市级”的AI工厂开机运行,将Grok 5提前推向了市场对下一代SOTA模型的期待中。
正如网友所说,AI时代,速度就是最强的护城河。

电网危机隐现
然而,并非所有人都能因这种“速度”而受益。
据《华尔街日报》报道,美国非营利电网运营商PJM警告,未来可能在极端高温或严寒天气期间,对区域内的居民实施轮流断电。这意味着,美国13个州的6700万人,在今年夏天可能面临一个相当难熬的时期。
要理解这个问题,首先需要明白PJM的角色。PJM本质上是美国能源系统的交通指挥中心,它根据实时用电需求,协调发电厂何时增发、何时降载,以维持电网的供需平衡。
然而,大模型“大力出奇迹”的竞赛正在打破这种平衡。在数据中心建设热潮的推动下,PJM预计未来10年电力需求将以年均4.8%的速度增长。对于一个多年来需求变化不大的系统而言,这样的增速是罕见的。
一边是需求激增,另一边,电力供给的增长却相当缓慢。新建电厂的速度甚至跟不上老电厂的退役速度,电网容量正面临饱和。一旦供需出现偏差,电网频率就会波动,可能损坏发电厂等关键基础设施。
为避免系统性风险,PJM只能两害相权取其轻,选择在用电高峰期通过轮流停电来为电网卸压。
PJM并非没有尝试其他解决方案。去年9月,PJM曾提议数据中心在高峰时段主动降低用电量,或改从其他渠道获取电力支持。然而,亚马逊、谷歌、微软等科技巨头几乎都表示了反对,认为这是对数据中心行业的歧视。
值得一提的是,PJM主要负责美国东海岸地区,而xAI的Colossus 2位于中南部,并不在PJM电网的直接覆盖范围内。同时,为减少对当地电网的冲击,xAI还部署了168个特斯拉Megapack电池储能系统,旨在用电高峰期提供电力缓冲,尽量避免周边居民遭遇停电。
参考链接:
[1]https://x.com/MilkRoadAI/status/2012558197240815665
[2]https://www.wsj.com/business/energy-oil/power-grid-ai-data-centers-1235f296
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18375
