GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

在数值分析领域，Newton-Schulz及其相关方法已被研究多年，但大多数工作关注的是高精度计算、CPU优化或方阵输入。

近日，来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法，使其更适配GPU硬件和大规模模型训练场景。实验表明，该算法在训练万亿参数的混合专家模型时，可将优化器步骤的耗时降低40%至50%。

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

Gram Newton-Schulz的核心思想可以概括为：

不再直接在原始矩阵 ( X in mathbb{R}^{n times m} ) 上进行迭代，而是转移到其维度更小的Gram矩阵 ( X X^top in mathbb{R}^{n times n} ) 上进行迭代。此举显著降低了计算量，并充分利用了对称矩阵的计算优化潜力。

该研究的主要贡献包括：
* 将标准Newton-Schulz方法重写为数学等价形式，使其主要作用于 ( n times n ) 的空间。
* 提出了基础的 Naive Gram Newton-Schulz 版本。
* 分析了该算法在半精度（float16）下的不稳定性，并提出了相应的重启策略，从而得到稳定的 Stabilized Gram Newton-Schulz 版本。
* 实现了高效的对称矩阵乘法GPU内核。
* 构建了 GramMuon 优化器，在实际模型训练中实现了40-50%的加速，且未损失模型精度。

下图展示了在NVIDIA B300平台上，AdamW与Muon优化器在不同规模的LLaMA模型上执行优化器步骤的耗时对比。

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

论文作者之一、普林斯顿大学本科生Jack Zhang表示：“我们的工作让Muon优化器的运行速度最高提升了2倍，而几乎没有增加额外成本。Gram Newton-Schulz可以作为Muon中Newton-Schulz模块的即插即用替代方案。我们在验证集上观察到，模型的困惑度几乎没有变化，误差控制在0.01以内。”

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

另一位作者、普林斯顿大学助理教授、Together AI联合创始人兼首席科学家Tri Dao评论道：“这是我最喜欢的一类工作——深刻的线性代数洞察与高性能算子实现的结合。我们花费了数月时间，深入分析Muon中间过程中涉及的矩阵特征值与特征向量，最终提出了一种简洁而优雅的算法，使这一想法得以实现。”

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

算法优势：从标准Newton-Schulz到Gram Newton-Schulz

为了更好地理解Gram Newton-Schulz的优势，首先需要回顾Muon优化器的背景。Muon可以理解为在谱范数下的最速下降法：

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

其中，( mu ) 表示动量系数，( eta ) 表示学习率，( text{polar} ) 表示极分解。

极分解定义为：若 ( X = U Sigma V^top )，则：
[
text{polar}(X) = U V^top
]
由于精确计算极分解代价高昂，Muon使用Newton-Schulz迭代进行近似。

标准Newton-Schulz的迭代形式如下：

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

该迭代本质上是对矩阵的奇异值进行逐步归一化，使其趋近于1。然而，标准Newton-Schulz存在计算瓶颈：每轮迭代包含三次矩阵乘法，总计算量（FLOPs）为：

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

这导致了几个问题：大量低效的矩形矩阵乘法、未充分利用矩阵的对称性，最终使优化器步骤成为训练瓶颈。

因此，Gram Newton-Schulz的核心思想是将迭代从原始矩阵 ( X ) 转移到其Gram矩阵 ( R = X X^top ) 上：

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

关键的理论变换在于：任何奇数多项式 ( p(t) ) 都可以重写为 ( t cdot q(t^2) ) 的形式。通过这一变换，迭代过程被转化为在 ( R ) 上进行的矩阵多项式迭代，本质上是近似 ( Y^{-1/2} )。

这种方法带来了显著优势：
* 维度降低：从 ( n times m ) 降至 ( n times n )。
* 计算优化：可以使用专为对称矩阵设计的GPU内核。
* 减少低效运算：减少了矩形通用矩阵乘法（GEMM）的次数。

稳定性挑战与解决方案

然而，基础的Naive Gram Newton-Schulz在float16精度下不稳定，Gram矩阵可能产生负特征值，导致训练出现损失尖峰（loss spike）或无穷大（Inf）值。

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
（图为在Llama-430M模型上使用Naive Gram Newton-Schulz时出现的不稳定现象）

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

为此，研究者提出了Stabilized Gram Newton-Schulz版本。其核心改进包括：
1. 在关键步骤使用float16进行加速。
2. 引入重启机制。
3. 对Gram矩阵进行重新初始化。

稳定版算法的流程如下：

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

结果表明，稳定版算法在保持数值稳定性的同时，速度仍显著快于原算法。

性能对比与实际应用

标准Newton-Schulz、Naive Gram与Stabilized Gram三种方法的计算复杂度对比如下：

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

结果表明，当矩阵形状比 ( alpha = m/n > 1 )（在深度学习模型中极为常见）时，Gram方法在计算量上明显更优，FLOPs最高可降低约42%至58%。

最后，研究在真实的万亿参数模型Kimi K2上评估了该算法。Kimi K2是一个稀疏、细粒度的混合专家模型，每层包含384个专家，隐藏层维度为7168，专家中间层维度为2048。由于其采用更细粒度的MoE架构并使用Muon进行训练，是评测Gram Newton-Schulz的理想场景。

在NVIDIA H100和最新的B300硬件上，于Kimi K2的流水线并行配置中进行测试，Gram Newton-Schulz的速度均是标准Newton-Schulz的2倍。

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
（NVIDIA H100 Hopper平台上的性能对比）

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
（NVIDIA B300 Blackwell平台上的性能对比）

更多技术细节请参阅研究团队发布的原博客。

博客地址：https://dao-lab.ai/blog/2026/gram-newton-schulz/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/28104

GPU加速新突破！Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

算法优势：从标准Newton-Schulz到Gram Newton-Schulz

稳定性挑战与解决方案

性能对比与实际应用

相关推荐

斯坦福博士生提出「持续自我提升式AI」：让模型自主进化，超越人类创造者

ReVision突破：无需图文配对，几何对齐解锁多模态大模型预训练新范式

LLM记忆管理终于不用“手把手教”了，新框架让智能体自主管理记忆系统

MobileRL：突破端侧GUI智能体训练瓶颈，AndroidWorld成功率超80%的强化学习新框架

SuperOffload：超级芯片时代LLM训练的革命性卸载系统，吞吐量提升2.5倍，解锁百万token序列训练