马斯克Colossus 2超算集群震撼上线：1GW算力创世界纪录，Grok 5训练加速，但电网危机隐现

2026年1月18日下午12:52 • AI产业动态 • 阅读 184

刚刚，全球首个GW级超算集群Colossus 2，正式投入运行。

马斯克兴奋地宣布：

这是全球首个达到1GW的超算集群，4月还将进一步升级至1.5GW。

网友直呼疯狂：「1.5GW，光是插座估计都得给墙壁装满了。」

有了这剂算力强心针，Grok的忠实拥趸已经开始畅想Grok 5的统治时代。

但在全网狂欢的背后，一个严峻的隐忧正在浮现——2026年夏天，美国13个州的6700万居民，可能因数据中心激增的电力需求而面临停电风险。

全球首个GW级训练集群

马斯克的执行力再次令人惊叹。不依赖亚马逊或微软，也未借助“星际之门”计划，他凭借一己之力在孟菲斯建起了一座功率达1GW的超算集群。

前一代超算集群Colossus 1从无到有仅用了122天，配备了约20万颗英伟达H100/H200和约3万颗英伟达GB200 NVL72。而在此基础上规模翻了好几倍、功率达到1GW的Colossus 2，其建设周期也仅用了不到一年。

1GW是什么概念？

一般来说，1GW可以为75万户家庭供电，相当于高峰时期的旧金山。一座核电站的功率也大约在1GW左右。

如果按马斯克所说，今年4月Colossus 2将升级至1.5GW，并最终达到2GW的总装机容量，其耗电量将与美国大多数主要城市的用电量相当。

按照规划，彻底完工后的Colossus 2将内置55.5万张GPU，规模远超Meta的15万、微软的10万以及谷歌的分布式基础设施。而这庞大的算力资源，将全部为Grok模型服务。

此前曾有爆料称，Grok 5的参数规模将达到惊人的6万亿左右，是Grok 4的两倍以上，其训练正是基于Colossus 2。当时就有观点预测，Grok 5将在拥有数十万张英伟达GPU的Colossus 2上训练，耗电量约为1GW。

如今，Colossus 2已正式上线，1GW的算力条件恰好满足Grok 5的训练需求。随着xAI近期完成200亿美元的E轮融资，Grok 5的“规模扩展”筹码进一步增加，这意味着更大的模型参数、更快的训练与迭代速度。

当OpenAI还在为2027年的算力基础设施发愁时，xAI已经将一座“城市级”的AI工厂开机运行，将Grok 5提前推向了市场对下一代SOTA模型的期待中。

正如网友所说，AI时代，速度就是最强的护城河。

然而，并非所有人都能因这种“速度”而受益。

据《华尔街日报》报道，美国非营利电网运营商PJM警告，未来可能在极端高温或严寒天气期间，对区域内的居民实施轮流断电。这意味着，美国13个州的6700万人，在今年夏天可能面临一个相当难熬的时期。

要理解这个问题，首先需要明白PJM的角色。PJM本质上是美国能源系统的交通指挥中心，它根据实时用电需求，协调发电厂何时增发、何时降载，以维持电网的供需平衡。

然而，大模型“大力出奇迹”的竞赛正在打破这种平衡。在数据中心建设热潮的推动下，PJM预计未来10年电力需求将以年均4.8%的速度增长。对于一个多年来需求变化不大的系统而言，这样的增速是罕见的。

一边是需求激增，另一边，电力供给的增长却相当缓慢。新建电厂的速度甚至跟不上老电厂的退役速度，电网容量正面临饱和。一旦供需出现偏差，电网频率就会波动，可能损坏发电厂等关键基础设施。

为避免系统性风险，PJM只能两害相权取其轻，选择在用电高峰期通过轮流停电来为电网卸压。

PJM并非没有尝试其他解决方案。去年9月，PJM曾提议数据中心在高峰时段主动降低用电量，或改从其他渠道获取电力支持。然而，亚马逊、谷歌、微软等科技巨头几乎都表示了反对，认为这是对数据中心行业的歧视。

值得一提的是，PJM主要负责美国东海岸地区，而xAI的Colossus 2位于中南部，并不在PJM电网的直接覆盖范围内。同时，为减少对当地电网的冲击，xAI还部署了168个特斯拉Megapack电池储能系统，旨在用电高峰期提供电力缓冲，尽量避免周边居民遭遇停电。

参考链接：
[1]https://x.com/MilkRoadAI/status/2012558197240815665
[2]https://www.wsj.com/business/energy-oil/power-grid-ai-data-centers-1235f296

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18375