Newton-Schulz算法
-
GPU加速新突破!Gram Newton-Schulz算法将万亿参数MoE模型优化器时间降低40-50%
在数值分析领域,Newton-Schulz及其相关方法已被研究多年,但大多数工作关注的是高精度计算、CPU优化或方阵输入。 近日,来自普林斯顿大学和纽约大学的四位研究者提出了Gram Newton-Schulz算法。该研究通过重构经典的Newton-Schulz方法,使其更适配GPU硬件和大规模模型训练场景。实验表明,该算法在训练万亿参数的混合专家模型时,可…