GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。

近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可将优化器步骤的耗时降低40%至50%

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

Gram Newton-Schulz的核心思想可以概括为:

不再直接在原始矩阵 ( X in mathbb{R}^{n times m} ) 上进行迭代,而是转移到其维度更小的Gram矩阵 ( X X^top in mathbb{R}^{n times n} ) 上进行迭代。此举显著降低了计算量,并充分利用了对称矩阵的计算优化潜力。

该研究的主要贡献包括:
* 将标准Newton-Schulz方法重写为数学等价形式,使其主要作用于 ( n times n ) 的空间。
* 提出了基础的 Naive Gram Newton-Schulz 版本。
* 分析了该算法在半精度(float16)下的不稳定性,并提出了相应的重启策略,从而得到稳定的 Stabilized Gram Newton-Schulz 版本。
* 实现了高效的对称矩阵乘法GPU内核。
* 构建了 GramMuon 优化器,在实际模型训练中实现了40-50%的加速,且未损失模型精度。

下图展示了在NVIDIA B300平台上,AdamW与Muon优化器在不同规模的LLaMA模型上执行优化器步骤的耗时对比。

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

论文作者之一、普林斯顿大学本科生Jack Zhang表示:“我们的工作让Muon优化器的运行速度最高提升了2倍,而几乎没有增加额外成本。Gram Newton-Schulz可以作为Muon中Newton-Schulz模块的即插即用替代方案。我们在验证集上观察到,模型的困惑度几乎没有变化,误差控制在0.01以内。”

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

另一位作者、普林斯顿大学助理教授、Together AI联合创始人兼首席科学家Tri Dao评论道:“这是我最喜欢的一类工作——深刻的线性代数洞察与高性能算子实现的结合。我们花费了数月时间,深入分析Muon中间过程中涉及的矩阵特征值与特征向量,最终提出了一种简洁而优雅的算法,使这一想法得以实现。”

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

算法优势:从标准Newton-Schulz到Gram Newton-Schulz

为了更好地理解Gram Newton-Schulz的优势,首先需要回顾Muon优化器的背景。Muon可以理解为在谱范数下的最速下降法:

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

其中,( mu ) 表示动量系数,( eta ) 表示学习率,( text{polar} ) 表示极分解。

极分解定义为:若 ( X = U Sigma V^top ),则:
[
text{polar}(X) = U V^top
]
由于精确计算极分解代价高昂,Muon使用Newton-Schulz迭代进行近似。

标准Newton-Schulz的迭代形式如下:

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

该迭代本质上是对矩阵的奇异值进行逐步归一化,使其趋近于1。然而,标准Newton-Schulz存在计算瓶颈:每轮迭代包含三次矩阵乘法,总计算量(FLOPs)为:

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

这导致了几个问题:大量低效的矩形矩阵乘法、未充分利用矩阵的对称性,最终使优化器步骤成为训练瓶颈。

因此,Gram Newton-Schulz的核心思想是将迭代从原始矩阵 ( X ) 转移到其Gram矩阵 ( R = X X^top ) 上:

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

关键的理论变换在于:任何奇数多项式 ( p(t) ) 都可以重写为 ( t cdot q(t^2) ) 的形式。通过这一变换,迭代过程被转化为在 ( R ) 上进行的矩阵多项式迭代,本质上是近似 ( Y^{-1/2} )。

这种方法带来了显著优势:
* 维度降低:从 ( n times m ) 降至 ( n times n )。
* 计算优化:可以使用专为对称矩阵设计的GPU内核。
* 减少低效运算:减少了矩形通用矩阵乘法(GEMM)的次数。

稳定性挑战与解决方案

然而,基础的Naive Gram Newton-Schulz在float16精度下不稳定,Gram矩阵可能产生负特征值,导致训练出现损失尖峰(loss spike)或无穷大(Inf)值。

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
(图为在Llama-430M模型上使用Naive Gram Newton-Schulz时出现的不稳定现象)

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

为此,研究者提出了Stabilized Gram Newton-Schulz版本。其核心改进包括:
1. 在关键步骤使用float16进行加速。
2. 引入重启机制。
3. 对Gram矩阵进行重新初始化。

稳定版算法的流程如下:

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

结果表明,稳定版算法在保持数值稳定性的同时,速度仍显著快于原算法。

性能对比与实际应用

标准Newton-Schulz、Naive Gram与Stabilized Gram三种方法的计算复杂度对比如下:

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%

结果表明,当矩阵形状比 ( alpha = m/n > 1 )(在深度学习模型中极为常见)时,Gram方法在计算量上明显更优,FLOPs最高可降低约42%至58%

最后,研究在真实的万亿参数模型Kimi K2上评估了该算法。Kimi K2是一个稀疏、细粒度的混合专家模型,每层包含384个专家,隐藏层维度为7168,专家中间层维度为2048。由于其采用更细粒度的MoE架构并使用Muon进行训练,是评测Gram Newton-Schulz的理想场景。

在NVIDIA H100和最新的B300硬件上,于Kimi K2的流水线并行配置中进行测试,Gram Newton-Schulz的速度均是标准Newton-Schulz的2倍

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
(NVIDIA H100 Hopper平台上的性能对比)

GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
(NVIDIA B300 Blackwell平台上的性能对比)

更多技术细节请参阅研究团队发布的原博客。

博客地址:https://dao-lab.ai/blog/2026/gram-newton-schulz/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/28104

(0)
上一篇 2026年4月1日 上午11:12
下一篇 2026年4月1日 上午11:14

相关推荐

  • 构建自我进化的AI智能体:从静态提示到动态协作训练架构全解析

    在智能体(Agentic)系统中,无论是用于工具调用还是复杂推理,其行动通常由提示词(Prompts)引导。然而,传统的提示词是静态的,它们仅能提供行动步骤,却无法实现自我进化。真正的智能体训练(Agentic Training)源于系统在动态环境中的学习、适应与协作能力。 在智能体架构中,每个子智能体(Sub-Agent)的目标各异,这意味着单一的算法无法…

    2025年11月15日
    30000
  • AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验

    AI自主科研新突破:Karpathy项目引发智能体群体协作,4天完成2000+实验 Karpathy的Autoresearch项目仅用630行Python代码,就让AI自主完成了276次实验,筛选出29项有效改进,将语言模型的训练效率提升了约11%,全程无需人类干预。 然而,更引人注目的进展发生在此之后。全球开发者社区接手项目,将其从“单个AI做实验”升级为…

    2026年3月15日
    25200
  • 何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据

    何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据 静态3D资产缺少动力学信息,而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练? 何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练 的全新范式,通过合成动力学 将静态几何“提升”到动态空间,使模型能够在无标签数据…

    2026年2月26日
    32000
  • Meta与ThinkMachine联手突破MoE训练内存墙:MoEBlaze框架实现内存降低4倍、训练加速6倍

    关键词: MoEBlaze 、内存墙、MoE 训练 、索引化路由 在当今大模型浪潮中,参数规模已突破万亿,训练成本与内存压力成为制约模型规模继续扩大的关键瓶颈。混合专家模型(Mixture-of-Experts, MoE) 因其能够以稀疏激活的方式实现万亿参数级别的模型训练,已成为大规模语言模型的主流架构之一。 然而,MoE 的稀疏性在降低计算密度的同时,也…

    2026年1月13日
    36200
  • 超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

    基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…

    2026年3月8日
    19800