突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

关键词: NVFP4Quartet II、MS-EDEN、无偏梯度估计低比特训练

随机舍入(Stochastic Rounding,SR)是一种将数值映射到有限、离散的低精度网格的技术。与标准的“四舍五入到最近值”不同,SR根据数值与两个最近网格点之间的距离,按概率决定“向上舍入”或“向下舍入”。作为低精度训练中的一项基础技术,它通过引入随机性来换取梯度估计的无偏性,从而保障训练稳定性,但其代价是引入了额外的噪声。本文旨在改进SR的这一缺点。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

  • Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation
  • https://arxiv.org/pdf/2601.22813
  • 代码: https://github.com/IST-DASLab/Quartet-II

NVFP4 是一种低精度格式,由 NVIDIA Blackwell 架构 GPU 提供原生硬件支持,有望首次实现大语言模型(LLM)等大规模模型的端到端全量化预训练。

然而,当前主流的量化训练方法为借助随机舍入(Stochastic Rounding, SR)获取更准确、无偏的梯度估计,不得不限制 NVFP4 的表示能力,从而在实际训练中引入明显精度损失——相比标准 FP16 或 FP8 训练,模型性能下降更为显著。

在本文中,我们通过一种名为 MS-EDEN(MicroScaling EDEN,微缩放 EDEN)的新型无偏量化方法改进了 NVFP4 量化训练的 SOTA,该方法针对微缩放格式设计, 量化误差比 SR 低 2 倍以上 。我们将其集成到一个名为 Quartet II 的新型【全 NVFP4 线性层量化】 方案中。

注:EDEN 是前人提出的一种“无偏估计生成器”的理论工具。本文的 MS-EDEN 是对该工具的一次成功“移植”和“格式定制化改造”,使其能用于实际的 4 比特模型训练。

我们从分析上证明,Quartet II 在所有主要矩阵乘法中都能持续获得更好的梯度估计,无论是在前向传播还是反向传播中 。此外,我们的方案 与专门针对 NVFP4 的最新训练改进具有很好的协同效应 。我们进一步通过在多达 38B token 上训练多达 1.9B 参数的 LLM 来验证 Quartet II 的端到端训练效果。

我们提供了在 NVIDIA Blackwell GPU 上执行的 kernel,相比 BF16 可实现高达 4.2 倍的加速。代码开源:https://github.com/IST-DASLab/Quartet-II。

问题一:理论无偏性与硬件妥协的张力

MS-EDEN方法的核心理论承诺是提供无偏梯度估计,但作者承认在实际实现中为硬件兼容性做出了妥协:使用固定的128维度旋转组、组内共享相同旋转、并忽略极小数FP8值的随机舍入。 这些工程妥协是否实质上损害了方法的“无偏性”理论保证? 文中图 9 (见回答)的验证基于特定模型(Llama-3.2-1B)和注意力块, 这些妥协在更大规模、不同架构的LLM训练中,是否仍能确保梯度估计的无偏性 ,从而避免长期训练中的偏差累积?

这些工程妥协并未在实践意义上损害其无偏性保证,且论文通过严谨的经验验证支撑了这一结论。

首先,需要明确无偏性在优化中的核心价值是防止误差在长期训练中系统性累积,而非追求数学上的绝对零误差。作者提到的三项妥协(固定维度、共享旋转、忽略极小尺度舍入)均经过审慎设计,旨在将对无偏性的潜在影响降至可忽略水平。固定维度128虽为理论无限维的近似,但 EDEN 原论文已证明:

  • 该尺寸下收敛已足够快;
  • 共享旋转种子虽非完全独立,但在每个张量内部仍保持了随机变换的核心功能,破坏了量化误差与原始数据间的相关性;
  • 忽略对极微小值(小于最大值的约1/32000)的FP8舍入,因其对整体梯度的贡献微乎其微。

最关键的是,论文并未仅依赖理论宣称,而是在附录 A 进行了直接的经验验证。下面贴出一张图:

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

图 9 展示了 Quartet II 与多种基准方案的量化反向传播平均值向非量化反向传播的收敛情况。与 1/B 趋势平行的方法为无偏方法,趋于平稳的方法(如 NVIDIA+4/6)会引入偏差。图表分别展示了模型注意力层中 q_proj、k_proj、v_proj 权重的结果,横坐标为累积步数(B)。该图通过多次量化反向传播的平均梯度与非量化梯度的相对二次误差,验证了方案的无偏性。实验基于 Llama-3.2-1B 预训练模型的注意力块 0(反向传播最深层),结果显示 Quartet II、NVIDIA 方案、TetraJet-v2 的误差随累积步数增加呈 1/B 衰减,符合无偏估计的中心极限定理特性;而 NVIDIA+4/6 方案误差趋于平稳,证明其反向传播引入了系统性偏差,进一步印证了 Quartet II 梯度估计的可靠性。

无偏性验证:在实际模型与实现中的稳健性

如图 9 所示,通过大量重复实验计算平均量化梯度的误差,Quartet II 的误差随重复次数 B 的增加以 ~1/B 的速度下降,这正是无偏估计的典型特征(符合中心极限定理)。此验证并非在“温室”环境中进行,而是使用了预训练好的 Llama-3.2-1B 模型,并在反向传播最深的块中进行测试, 这强有力地证明了即使在实际模型和存在妥协的实现下,无偏性依然成立。因此,这些妥协是理论理想性与硬件效率之间的成功权衡,而非对核心保证的损害。

实验比较的公平性质疑与回应

质疑:论文在对比基线 TetraJet-v2 时,明确指出未实现其关键设计(如中间 FP32 尺度和异常通道处理),仅采用其“GPU可行”子集。 这是否导致了对 TetraJet-v2 性能的低估或不公平比较? 如果完整实现了 TetraJet-v2 的原有设计,Quartet II 是否仍能保持文中所述的显著优势?这种选择性对比是否削弱了论文所宣称的“全面优于现有方案”结论的可信度?

回应:论文的对比方式不仅公平,而且更具现实指导意义。 它比较的是“在现有硬件上可立即、高效实现”的方案,而非“理想化但可能不切实际”的设计。

作者明确指出,TetraJet-v2 原文提出的中间 FP32 尺度和选择性异常通道等设计,“需要更复杂的核函数支持,而作者并未提供”。 在工程研究中,对比一个无法在目标硬件(此处指 Blackwell GPU)上有效运行的设计的“理论性能”是没有意义的,这会导致“纸上谈兵”的对比。因此,论文选择对比一个剥离了这些不切实际复杂性的、GPU可行的 TetraJet-v2 逻辑核心——即前向使用 RTN,后向内维使用带 RHT 的 SR。这实际上是在同一起跑线上(均使用可实现的核函数)比较不同的算法思想。

更重要的是,这种务实做法反而增强了论文结论的说服力。Quartet II 战胜的并非一个“残缺版”基线,而是该基线方法中已被证明有效且可部署的核心部分。

作者进一步表明,【即使】放弃 TetraJet-v2 中为弥补 SR 缺陷而设计的复杂启发式方法(如异常值控制),转而采用更优的 MS-EDEN 估计器, 能在保持简洁性的同时获得更好效果。此外,作者还将 Quartet II 与完全体 NVIDIA 方案及 FourOverSix 等进行了交叉比较,其性能优势具备一致性。

因此,这种比较聚焦于算法核心创新(MS-EDEN)带来的增益,为从业者选择可落地的最佳方案提供了清晰、可靠的依据。

一、引言

训练最先进基础模型的计算成本正以大致指数级的速度增长,这让人对该领域的可持续性产生质疑,例如 [Amodei & Hernandez, 2018; Sevilla et al., 2022]。现代基于 Transformer 的基础模型的预训练主要由密集矩阵乘法(GEMMs)主导,例如注意力机制和 MLP(Multi-Layer Perceptron,多层感知机)中的线性投影,因此,降低这些 GEMM 的精度是降低端到端训练成本的最直接手段之一。

这一动机推动了混合精度训练方案的不断演进,从 FP16/BF16 到 FP8 [Micikevicius et al., 2022],现在正朝着 4 位微缩放浮点格式(如 MXFP 和 NVFP)发展。在这些格式中, 数值以 4 位浮点编码存储,但每个小块都伴随一个更高精度如 FP8 的缩放因子,在保留动态范围的同时实现张量核心加速。

最近的 GPU 加速器为这类格式提供原生支持,单个矩阵乘法的吞吐量比 FP8 提升 2-4 倍 [NVIDIA, 2024]。

关键挑战是在 4 位精度下执行大部分操作的同时,保持 FP16/FP8 质量的优化 [Xi et al., 2023; Chmiel et al., 2024]。在这个尺度上,朴素的量化会导致长程预训练运行中的发散。

关于稳定 FP4 原生训练的新兴工作 [Tseng et al., 2025; Castro et al., 2025; Chmiel et al., 2025] 已经收敛到两个指导原则:

  • 首先,前向传播应通过最小化激活和权重的量化误差(通常通过均方误差 MSE 衡量)来最大化表示能力。
  • 其次,反向传播对偏差特别敏感:因此,有偏的梯度估计器会在多步中累积系统误差,使得无偏(或精心控制的)梯度量化对稳定收敛至关重要。

这些见解支撑了 NVIDIA 首个端到端 NVFP4 预训练方案 [NVIDIA et al., 2025] 及后续改进,包括前向传播缩放选择启发式 [Cook et al., 2025] 和改进的 NVFP4 稳定机制 [Chen et al., 2025b]。 然而,当前最先进的 FP4 方案相对于 FP8 和 FP16 仍然有明显的精度下降。

本文贡献

在本文中,我们通过重新审视 NVFP4 微缩放格式的无偏梯度估计问题,改进了 NVFP4 原生训练的最新水平。令人惊讶的是,我们表明现有的主流解决方案——逐元素 FP4 随机舍入(SR)——可以得到显著改进。 我们通过引入一种名为 MicroScaling EDEN(MS-EDEN,微缩放 EDEN)的新型无偏量化方法来实现这一点, 该方法通过将随机性从单个 FP4 值转移到微缩放因子,同时保留期望中的可证明无偏性,从而将量化误差降低。

基于 MS-EDEN,我们构建了 Quartet II,一个全 NVFP4 线性层计算图,它结合了:
1. 使用原生 NVFP4 缩放并增强“Four-over-Six”(四过六)缩放选择启发式 [Cook et al., 2025] 的高容量前向传播。
2. 基于 MS-EDEN 和高效内维度随机块旋转的无偏反向传播。

实验分析表明 Quartet II 在 Transformer 训练的主要矩阵乘法中产生持续改进的梯度估计,并通过端到端 LLM 预训练验证了这些改进。最后,我们提供了在 NVIDIA Blackwell GPU 代上高效执行的 kernel,使所提出的方案在大规模上实用。

总之,我们的贡献如下:
* 提出一种名为 MS-EDEN 的新型无偏量化原语, 专为微缩放 FP4 格式定制,相对于 FP4 随机舍入大幅降低量化误差,同时保持硬件兼容性;
* 提出一种名为 Quartet II 的 全 NVFP4 线性层训练图,结合改进的前向传播量化和改进的无偏反向传播量化(MS-EDEN),产生更好的梯度估计;
* 实证验证:我们开展了广泛的消融实验与端到端精度测试,训练结果表明,相较此前的 NVFP4 方案,本方法在各类任务中均展现出稳定、一致的精度提升
* 高效 kernel:我们实现了面向 NVIDIA Blackwell 架构的高性能 kernel,实测显示,其推理速度相较 BF16 最高可达 4.2 倍

二、相关工作

2.1 低精度训练

低精度训练是深度学习中一个长期活跃的研究方向,代表性工作包括 [Courbariaux et al., 2015;Esser et al., 2019;Panferov et al., 2025a;Micikevicius et al., 2022;Hernández-Cano et al., 2025]。

早期关于 4 位训练与 4 位矩阵乘法的探索主要聚焦于 INT4 表示,并证实:在精心设计缩放策略、并针对性处理异常值的前提下,模型精度可在资源受限条件下得到有效保持 [Xi et al., 2023;Chmiel et al., 2024]。

2.2 微缩放 FP4 训练

NVFP4 与 MXFP4 微缩放浮点格式的最新引入(NVIDIA,2024)再度激发了该方向的研究热情。

  • Tseng 等人(2025)探索了仅在反向传播中使用 MXFP4 的方案,重点分析了微缩放策略与 GPU 内核行为如何协同影响优化稳定性。
  • Castro 等人(2025)与 Chmiel 等人(2025)几乎同步提出了首个稳定可行的全量化训练方法:
    • 前者聚焦于 MXFP4,结合 Hadamard 旋转与 MSE 最优裁剪,在 GPU 内核层面验证了有效性;
    • 后者面向 NVFP4,采用精细调校的就近舍入(RTN)与选择性随机舍入,在 1T token 规模的模拟训练中展现了良好的鲁棒性。
  • NVIDIA 等人(2025)首次实现了 NVFP4 的大规模训练方案,引入了方形块量化、反向传播阶段的 Hadamard 旋转,并对部分关键层保留了更高精度。
  • TetraJet-V2(Chen 等人,2025b)在 NVIDIA 方案的基础上进一步优化,通过增强的异常值抑制与振荡缓解技术提升了训练稳定性。
  • FourOverSix(Cook 等人,2025)则提供了一种正交的改进思路:基于 MSE 最小化原则定制量化网格,显著降低了量化误差。

TetraJet-v2 由 Chen 等人(2025b)提出,作为 NVIDIA 等人(2025)方案的升级。它引入了对该方案的一些修正以及进一步稳定训练的启发式方法:

  1. 优化了反向传播中的激活重量化,使其更严格地契合链式法则;同时引入了类似 Castro 等人(2025)的权重重量化机制。
  2. 新增了中间精度的 FP32 缩放及对选择性异常值通道的支持。然而,这些改动的实际效用难以评估,因为它们依赖于更复杂的内核实现,而作者并未公开相关代码或细节。

因此,本文后续提及 TetraJet-v2 时,特指以下 GPU 可行方案:前向传播采用 RTN(不使用方形块缩放)的 NVFP4 量化;反向传播中,两个 GEMM 的内维则采用 SR 量化配合 RHT(随机 Hadamard 变换)。我们并未复现其中的中间 FP32 缩放或异常值通道机制——此举旨在将清晰、可部署的量化逻辑,与当前 GPU 架构下难以落地的设计决策明确区分开来。

上述所有技术均采用随机舍入(SR)的某种变体,以在反向传播中保持梯度无偏性。我们重新审视这一设计选择,并提出一种新型无偏梯度估计器——MS-EDEN。该方法在均方误差(MSE)上展现出显著优势,并已通过实验验证。

2.3 无偏量化与旋转

  • 无偏随机量化是分布式优化的关键技术(Alistarh 等人, 2017;Suresh 等人, 2017;Davies 等人, 2020),因其能在减少通信开销的同时,为随机梯度下降(SGD)提供收敛性保证。随机舍入是低精度训练中常用的无偏量化方法,但在位宽较低时,其估计方差可能显著增大。
  • EDEN(Vargaftik 等人, 2022)通过结合随机旋转与校正性重缩放,在分布式优化中实现了(近)无偏梯度估计。然而,如第 3.2 节所述,该方法无法直接适配我们的设定。 我们的 MS-EDEN 方法在保持无偏性的同时,进一步降低了相对于随机舍入(SR)的估计误差。更广泛地来说,随机旋转也被用于平滑权重与激活的量化分布(Tseng 等人, 2024;Ashkboos 等人, 2024),以缓解低比特量化带来的分布偏移问题。

三、反向传播量化

作用于向量 ( mathbf{x} ) 的 ( k )-维量化算子 ( Q_k ) 通常定义为(可能带随机性的)映射 ( Q_k(mathbf{x}; theta) ),其中参数 ( theta ) 由概率分布采样得到,以确保量化结果无偏。实践中,用户可从分布 ( Theta ) 中重复采样(伪)随机种子 ( theta )。此时,关于 ( mathbf{x} ) 的无偏性定义为:

[
mathbb{E}_{theta sim Theta}[Q_k(mathbf{x}; theta)] = mathbf{x}.
]

我们重点关注大语言模型(LLM)预训练中反向传播阶段的量化无偏性——已有研究表明,该性质对实现稳定、长程的收敛至关重要(Chmiel 等人, 2024; Tseng 等人, 2025; Castro 等人, 2025; NVIDIA 等人, 2025)。直观而言,若梯度估计存在系统性偏差,优化过程将持续沿错误方向更新,从而破坏收敛稳定性。

3.1 NVFP4 与随机舍入

量化训练的终极目标是借助专用的低精度 GEMM 实现更高吞吐量;当前,NVIDIA 和 AMD 的最新 GPU 已原生支持 MXFP4 和 NVFP4 两类微缩放格式。

实证表明,NVFP4 在精度上优于 MXFP4(NVIDIA 等人, 2025; Egiazarian 等人, 2025; Chen 等人, 2025a)。它采用 E2M1 浮点表示,辅以两级缩放:每 16 个元素共享一个 E4M3 缩放因子,每个张量再配一个 FP32 全局缩放,以扩展动态范围。形式上,张量 ( mathbf{X} ) 的量化表示 ( tilde{mathbf{X}} ) 定义为:

[
tilde{mathbf{X}} = s_{text{global}} cdot mathbf{s}{text{group}} odot mathbf{X}{text{FP4}},
]

其中 ( mathbf{X}{text{FP4}} ) 是 FP4 元素向量,( mathbf{s}{text{group}} ) 是每组 16 元素的缩放向量,( s_{text{global}} ) 是全局标量缩放。随机舍入(SR)具体为:

[
Q_{text{SR}}(x; theta) = text{clip}left( frac{text{round}_{text{stochastic}}(x cdot alpha; theta)}{ alpha}, -6.0, 6.0 right),
quad alpha = frac{448.0}{6.0 cdot gamma}.
]

此处,448.0 是 FP8 的最大可表示绝对值,6.0 是 FP4 的对应值,而 ( gamma ) 是 RTN 允许的最大放大系数——确保归一化后值严格落在 ([-6.0, 6.0]) 内,类似 Tseng 等人(2025)对 MXFP4 所用的 ( eta ) 因子。SR 是依赖随机种子 ( theta ) 的概率舍入操作,期望意义上无偏。在所选常数下,该随机舍入不截断输入,且重建估计严格无偏

[
mathbb{E}{theta}[Q{text{SR}}(x; theta)] = x.
]

据我们所知,所有现有 FP4 训练方法(Chmiel 等人, 2025; Castro 等人, 2025; NVIDIA 等人, 2025; Chen 等人, 2025b; Tseng 等人, 2025)均依赖逐元素随机舍入来保障无偏性。

3.2 EDEN 重缩放:一种理论上合理的解决方案

在大语言模型(LLM)量化领域,随机旋转(如随机 Hadamard 变换,RHT)是一种常用技术(Xi 等人, 2023;Tseng 等人, 2024;Ashkboos 等人, 2024;Tseng 等人, 2025)。RHT 同样广泛应用于分布式优化(Suresh 等人, 2017;Davies 等人, 2020;Vargaftik 等人, 2021)。例如,EDEN 方法(Vargaftik 等人, 2022)利用 RHT(由随机种子 ( theta ) 控制)确保旋转后向量 ( mathbf{y} = mathbf{H}mathbf{x} ) 与其量化结果 ( Q_k(mathbf{y}) ) 严格共线。其核心在于引入偏差校正因子 ( beta ):

[
beta = frac{|mathbf{y}|_2^2}{langle mathbf{y}, Q_k(mathbf{y}) rangle}.
]

基于该构造,EDEN 的作者证明:若 ( d ) 表示向量维度,则

[
mathbb{E}_{theta}[beta cdot mathbf{H}^{-1}Q_k(mathbf{H}mathbf{x})] = mathbf{x} + O(1/d),
]

即 ( beta cdot mathbf{H}^{-1}Q_k(mathbf{H}mathbf{x}) ) 在旋转空间中给出无偏估计。实践中,该收敛速度足够快——即使在 ( d=128 ) 这样较小的分组下执行 RHT,估计也已基本无偏。

挑战

遗憾的是,这种精巧的设计无法直接用于量化训练中的梯度估计。正如 Castro 等人(2025)所指出的,EDEN 提出的缩放校正因子 ( beta ) 在实际中取值范围为 ( (0, infty) ),需以较高精度存储。

因此,它与 NVFP4 所采用的粗粒度压缩缩放表示不兼容:FP8 缩放所能表示的最小相对更新倍数为 ( 2^{-3} )。同时,该因子也无法融入更细粒度的每张量缩放方案中,因为缩放分组必须是旋转分组的子集。

3.3 我们的解决方案:微缩放 EDEN

方案概述

我们现在展示如何将 EDEN 偏差校正(公式 1)扩展到 NVFP4 微缩放量化格式。该过程的伪代码在下面算法 1 中给出。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

算法 MS-EDEN 的核心流程为:首先将输入向量分块并进行随机 Hadamard 变换,随后对旋转结果执行确定性的就近取整量化。其关键创新在于,通过计算并利用随机舍入将尺度校正因子无偏地融合到 NVFP4 的 FP8 组尺度中,从而将随机性从 4 位数值层面转移至 8 位尺度层面。该方法在严格保证梯度估计无偏性的同时,显著降低了传统随机舍入带来的量化误差。

我们先给出整体流程概览,再介绍若干关键实现细节。输入向量 ( mathbf{x} ) 按块处理,每块包含 128 个连续元素(量化组大小为 16 的任意整数倍均可);处理时需提供旋转与舍入所用的随机种子,以及网格缩放参数 ( gamma )。

  • 首先,利用伪随机旋转矩阵对当前块执行随机哈达玛变换;
  • 随后,对旋转后的块采用就近舍入方式量化为 NVFP4 格式,显著降低均方误差,优于标准随机舍入。

第二步需解决 EDEN 缩放精度问题。为此,我们提出一种新变体:将 EDEN 校正因子通过随机舍入直接融入组微缩放中。随机舍入的无偏性确保:在期望意义上,校正因子被精确表示,从而端到端维持量化过程的无偏性。

“无偏”NVFP4 RTN 量化

  • 首先,由于 EDEN 通过随机旋转和重缩放保证无偏性,我们无需对单个值进行到 FP4 的随机舍入。
  • 其次,由于不采用随机舍入,我们可以允许量化操作裁剪部分值。
  • 第三,校正因子有时需要向上缩放,这意味着需要提高范围上限以容纳这些更新。

为了兼容这些约束,我们定义裁剪 RTN NVFP4 量化方案如下:

这里,是裁剪因子。将设置为或更低会使方案变为非裁剪。此外,相对于标准方案,FP8 缩放最初被限制为 256.0 而非 448.0,以防止在应用 EDEN 校正时溢出。我们唯一需要使用随机舍入的地方是针对组缩放,这是为了解决 NVFP4 的组缩放以 E4M3 FP8 格式存储这一问题,该格式过于粗糙,无法准确表示 EDEN 重缩放因子。

无偏性保证

形式上,量化器需要满足 EDEN 无偏的许多性质,例如 i)符号对称性和 ii)非下溢。这些性质对非下溢浮点量化成立。具体而言,NVFP4 被证明具有足够的范围使缩放不会下溢 [Egiazarian et al., 2025; Chen et al., 2025a]。基于 Vargaftik et al. [2022] 的定理 2.1 和随机舍入的性质,以下推论成立:

推论 3.1

对于所有和缩放,我们有:

在实际应用中,当 MS-EDEN 作用于矩阵乘法的内维,且两个张量采用相同的旋转种子时,逆旋转无需显式执行——它会自然抵消。论文附录 A 通过数值实验验证了该估计量的无偏性。

实际性能

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

表 1 展示了服从标准正态分布 N(0,1) 的数据在多种 NVFP4 舍入方案下的二次误差(×10⁻³),涉及原生(1×16)或方块(16×16)缩放,并标注了是否加入 Cook 等人(2025)提出的 “四六” 策略。Quartet II 正向传播和反向传播选用的方案已突出显示,同时标注了各方案是否无偏。

首先,观察到随机舍入以实现无偏性为代价,其 MSE 比就近舍入增加约 2.5 倍。同时,MS-EDEN 显示出小得多的误差增加,比随机舍入改进 2 倍以上。我们将此归因于以下事实:
1. MS-EDEN 完全避免了逐元素随机舍入引入的显著方差。
2. 的重缩放对于 NVFP4 很小。
3. 8 位缩放的随机舍入引入的方差比 4 位量化本身小一个数量级。

然而,依赖随机旋转会带来额外限制:微缩放组必须是旋转组的细分。受限于硬件特性,旋转与缩放校正只能作用于被乘张量的内维。因此,在大语言模型中利用 MS-EDEN 实现无偏梯度估计时,还需对计算流程进行额外设计。

四、前向传播量化

4.1 表示能力与重量化的权衡

除了使用随机舍入之外,NVIDIA NVFP4 LLM 预训练方案 [NVIDIA et al., 2025] 及后续工作 [Cook et al., 2025] 的一个一致特征是在前向传播中对权重张量进行方形块量化。这是为了允许在反向传播操作中重新使用量化张量来计算输入梯度,而无需重新量化:

这有效地将该矩阵乘积的反向传播量化误差减半,如图 1(b,c) 中随机舍入的性能差距所示。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

图 1 | 展示了选择性 NVFP4 反向传播量化对 C4 验证损失的影响,以基于 BF16 预训练的基准模型为参照。实验对象为具有 N 个参数的类 Llama-2 大语言模型,横坐标表示每个参数对应的 tokens 数量(D/N)。坐标轴标题标注了两个反向传播矩阵乘法中哪些张量被量化。

然而,这种改进是以牺牲前向传播中更差的异常值保留和通常较低的表示能力为代价的,因为实际上每 256 个 FP4 值只有一个 FP8 缩放,而不是每 16 个值。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

图 2 | 呈现了 NVFP4 正向传播的 C4 验证损失差距,以 BF16 预训练为基准。实验对象为具有 N 个参数的类 Llama-2 大语言模型,横坐标为每个参数对应的 tokens 数量(D/N)。“16x16gs” 和 “1x16gs” 分别表示是否使用方块量化,“+4/6” 表示是否采用 “四六” 缩放选择启发式算法 [Cook et al., 2025]。

前向传播量化准确性的影响可以在图 2 中观察到,其中方形块(“16x16gs”)在 LLM 验证困惑度方面始终落后于 NVFP4 原生块(“1x16gs”)。这呈现了梯度估计质量与模型表示能力之间的权衡,NVIDIA et al. [2025] 选择了前者。

我们在这里做出了不同的选择。

第一个原因是 MS-EDEN 需要沿微缩放组维度(即沿内 GEMM 维度)应用随机旋转。这产生了在反向传播中重新量化权重张量和激活张量的需求。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

图 1 | 展示了选择性 NVFP4 反向传播量化对 C4 验证损失的影响,以基于 BF16 预训练的基准模型为参照,实验对象为具有 N 个参数的类 Llama-2 大语言模型,横坐标表示每个参数对应的 tokens 数量(D/N)。坐标轴标题标注了两个反向传播矩阵乘法中哪些张量被量化。

其次,我们认为,即使有权重重新量化,MS-EDEN 也比没有权重重新量化的随机舍入产生更低的误差,因为它的二次误差低 2 倍以上(表 1)。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低

表 1 为服从标准正态分布 N(0,1) 的数据在多种 NVFP4 舍入方案下的二次误差(×10⁻³),涉及原生(1×16)或方块(16×16)缩放,标注了是否加入 Cook 等人(2025)提出的 “四六” 策略,突出显示了 Quartet II 正向传播和反向传播选用的方案,同时标注各方案是否无偏。

此外,这可以通过比较图 1(d) 中没有权重重新量化的随机舍入与图 1(e) 中有权重重新量化的 MS-EDEN 看出,它展示了这一发现如何外推到 LLM 预训练(更多细节见第 6.1 节)。因此,MS-EDEN 享有更好的前向传播表示能力,同时改进了反向传播的梯度估计。

4.2 使用 “4/6” 的前向传播

Cook et al. [2025] 提出了 Four Over Six(“4/6”),这是对 NVFP4 量化算法的修改,它为每个值块评估两个潜在缩放因子(4.0 和 6.0),并选择产生更低 MSE 的那个。他们将 “4/6” 与反向传播的随机舍入结合。

然而,这种组合有一个明显的正确性问题。在他们提出的形式中,它不构成无偏估计,因为选择更低 MSE 缩放分支的行为引入了偏差,即使两个缩放分支通过随机舍入单独无偏。因此,他们的方案不产生无偏梯度估计,故我们将其从反向传播比较中排除。

然而,它在前向传播的用处是明确的。在他们的原始方案中,由于权重张量使用方形块量化,这个想法没有被充分利用。我们通过测量 “4/6” 对张量的二次误差改进来验证这一点,并在表 1 中报告结果。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 2 | NVFP4 前向传播的 C4 验证损失差距。实验基于类 Llama-2 架构的大语言模型,横坐标为每个参数对应的 tokens 数量(D/N)。图中对比了使用方块量化(“16x16gs”)与原生组缩放(“1x16gs”)的情况,以及是否采用 Cook 等人(2025)提出的“四六”(“+4/6”)缩放选择启发式算法。

我们进一步测量了“4/6”策略对前向传播量化感知训练(QAT)的影响,验证损失的增加情况在图 2 中呈现(详见第 6.1 节)。结果显示,“4/6”策略与前向传播的原生 NVFP4 缩放产生了积极的协同效应,相对于方块量化,其在 LLM 预训练中带来的性能提升大约翻倍。

五、Quartet II 计算图

本节将前述组件整合,提出 Quartet II——一个用于 LLM 预训练的全 NVFP4 线性层计算方案,该方案保证了无偏的梯度估计。

5.1 前向传播

Quartet II 在前向传播中采用就近舍入法对 FP4 值进行舍入,并使用原生 NVFP4 缩放(每 16 个元素对应一个 FP8 E4M3 缩放因子),同时增加一个每张量的 FP32 缩放因子以扩展表示范围 [NVIDIA et al., 2025]。此基础方案通过采用 Cook 等人 [2025] 提出的量化网格局部缩放级别选择策略(即“4/6”策略)得到增强。这一确定性的舍入操作应用于权重和激活值,使得在 Blackwell NVIDIA GPU 上能够利用张量核心执行原生的 NVFP4 乘法运算。量化后的权重和激活值会被保存,用于后续的反向传播过程。

5.2 反向传播

首先,使用伪随机方法生成分组随机哈达玛变换(RHT)旋转矩阵。随后,将前向传播保存的量化权重和激活值进行反量化、转置操作,再与张量 和 一同通过 MS-EDEN 方法进行重新量化,以生成对应张量的无偏估计。这些量化后的张量随后在 NVFP4 张量核心中进行乘法运算。由于旋转操作在 GEMM 的内积维度上相互抵消,乘积输出无需进一步处理即可直接用于优化器更新步骤及更深层的反向传播。

计算图

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 3 | Quartet II 全 NVFP4 线性层计算方案示意图。

如图 3 所示,本方案在 TetraJet-v2 方案 [Chen et al., 2025b] 的基础上进行了优化,并扩展了 NVIDIA 的方案 [NVIDIA et al., 2025]。其关键改进在于:在反向传播中用 MS-EDEN 替代了随机舍入(SR)量化,并在前向传播中引入了更精细的“4/6”缩放选择机制 [Chen et al., 2025a]。

六、实验验证与扩展

6.1 Llama 系列模型预训练

我们通过在大语言模型(LLM)预训练阶段进行组件消融实验,对 Quartet II 进行实证评估。具体设置如下:

  • 任务与数据:在 C4 数据集 [Dodge et al., 2021] 的样本上,使用 Adam 优化器 [Kingma & Ba, 2017] 和余弦学习率调度 [Loshchilov & Hutter, 2017],训练遵循 Llama 2 [Touvron et al., 2023] 架构的 Transformer 模型 [Vaswani et al., 2023],以最小化语言建模损失。
  • 模型与数据规模:训练了参数量分别为 30M、50M、100M 和 200M 的模型,对应的训练数据量(以 tokens 计)为参数量的 25、50、100、200、400 和 800 倍,覆盖了从接近计算最优 [Hoffmann et al., 2022] 到显著过训练的范围。
  • 超参数:主要沿用 Panferov 等人(2025b)的设置,对于更大模型的初始学习率,按模型宽度的反比进行缩放。BF16 基线模型与所有量化感知训练(QAT)实验共享全部超参数(包括学习率和权重衰减),未作额外调整。

反向传播量化

我们首先单独验证 MS-EDEN 在反向传播量化中的准确性。实验选择性地对两个反向传播 GEMM(记为 和 )中的不同张量进行量化,并测量相对于 BF16 基线的最终验证损失增加。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 1 | 选择性 NVFP4 反向传播量化对 C4 验证损失的影响。实验基于类 Llama-2 架构的大语言模型,横坐标为每个参数对应的 tokens 数量(D/N)。坐标轴标题标注了在两个反向传播矩阵乘法(GEMMs)中具体对哪些张量进行了量化。

我们测试了以下量化方案:
* (a) :仅量化权重梯度 GEMM。
* (b) :量化输入梯度 GEMM,但不进行权重重新量化。
* (c) :量化输入梯度 GEMM,并进行权重重新量化。
* (d) :量化两个 GEMM,但不进行权重重新量化。
* (e) :量化两个 GEMM,并进行权重重新量化。

对于异常值平滑,当 GEMM 中的两个输入张量均被量化时,我们在 GEMM 的内积维度上以 128 为组大小执行随机哈达玛变换(RHT)。

MS-EDEN 方法依赖于权重的重新量化,因此与方案 (b) 和 (d) 不兼容。实验观察到:在所有 MS-EDEN 可适用的方案中,其性能始终优于随机舍入(SR);尤为重要的是,采用 MS-EDEN 的完全量化方案(对应图 1(e),含权重重新量化)优于采用 SR 的完全量化方案(对应图 1(d),无权重重新量化)

前向传播量化

我们分别评估了方块组缩放与“4/6”策略对前向传播量化的影响。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 2 | NVFP4 前向传播的 C4 验证损失差距(与图 2 内容一致,此处为上下文连贯性保留)。实验基于类 Llama-2 架构的大语言模型,横坐标为每个参数对应的 tokens 数量(D/N)。“16x16gs” 和 “1x16gs” 分别表示是否使用方块量化,“+4/6” 表示是否采用 “四六” 缩放选择启发式算法(Cook 等人,2025 年提出)。

结果如图 2 所示:“4/6”策略在所有测试场景下均提升了 NVFP4 权重量化的效果,无论是采用方块组缩放还是原生组缩放,都进一步缩小了与 BF16 基准的性能差距。

值得注意的是,在原生组缩放下,“4/6”策略带来的性能提升幅度约为在方块组缩放下的两倍。这一现象与“4/6”策略的作用机制相符:
* 在原生组缩放中,该策略同时优化权重和激活的量化。
* 而在方块组缩放中,其优化作用仅针对激活量化,对权重量化没有直接影响。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
表 1 | 服从标准正态分布 N(0,1) 的数据在多种 NVFP4 舍入方案下的二次误差(×10⁻³)。方案涉及原生(1×16)或方块(16×16)缩放,并标注是否加入了“四六”策略。表中突出显示了 Quartet II 在前向和反向传播中选择的方案,同时标注了各方案是否具有无偏性。

这一结论与表 1 中的二次误差分析结果一致。总体而言,该结果表明“4/6”策略能与原生组缩放产生良好的协同效应——我们已将这一发现整合到 Quartet II 的最终设计中。

完全量化

最后,我们将前向传播量化与反向传播量化相结合,并将 Quartet II 与 NVIDIA 等人 [2025]、FourOverSix [Cook et al., 2025] 以及 TetraJet-v2 [Chen et al., 2025b](如第 2 节所述)等方案进行比较。

6.2 Nanochat 预训练

为在更大规模、更高质量的数据上验证 Quartet II 的性能,我们将其应用于 Nanochat 训练流程。此实验设置与 6.1 节的消融实验存在多处不同:
1. 使用 Muon 优化器与 WSD 学习率调度器。
2. 采用 QK 归一化。
3. 使用 ReLU² 作为 MLP 激活函数。

数据方面,模型首先在 FineWeb-Edu 数据集上以每参数 20 个 token 的比例进行预训练,随后在 ARC、GSM8K、Smol-SmolTalk 等多个数据集的训练分割上进行监督微调。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
表 5:Nanochat 预训练中 BF16 与多种 FP4 量化感知训练(QAT)方法的最终每字节比特数(BPB)对比。

表 5 展示了在 560M 参数(11B tokens)和 1.9B 参数(38B tokens)两种规模下,BF16 与多种 FP4 QAT 方法的最终 BPB 结果。Quartet II 在两种规模下均实现了最低的 BPB 增幅,较其他方案降低 0.1-0.5 个百分点。尽管 SFT 后各量化方案在下游任务上的表现无显著统计差异,但预训练阶段的 BPB 优势充分印证了 Quartet II 在量化精度上的领先性。

实验基于 Nanochat 的特定版本,分别运行 speedrun.sh(560M 参数)和 run1000.sh(1.9B 参数)脚本。训练策略采用分阶段调整:预训练阶段使用全量化训练,训后阶段则关闭反向传播量化以适应短周期、数据受限的特点。所有线性层均被替换为选定的 QAT 方案,其余训练超参数保持不变。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 5:Nanochat 预训练的验证损失曲线,展示了相对于 BF16 预训练的 BPB 相对增幅。

图 5 展示了 Nanochat 预训练的验证损失曲线。BF16 与量化训练均在约 6T tokens 处出现损失峰值,随后趋于稳定。Quartet II 表现出良好的训练稳定性,其预训练损失较 BF16 基线降低 15%–25%,这一优势在图 5 的验证集 BPB 指标中得到体现。在后续的零样本基准测试中,不同 FP4 QAT 方法间的性能差异不显著,这可能源于指令微调时间较短以及测试集规模有限。

七、Kernel 支持

7.1 融合重新量化 Kernel

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 3:Quartet II 全 NVFP4 线性层计算方案。

图 3 展示了 Quartet II 全 NVFP4 线性层的计算方案。图中哈希区域表示一组理论上可在 GPU 上合并执行以提升效率的操作。然而,由于 NVFP4 量化依赖的全局最大值归约会引入全局同步屏障,这些操作无法在单个 kernel 内完成。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 7:朴素范围对齐的 MS-EDEN 重量化内核流程。

图 7 展示了朴素的 MS-EDEN 重量化内核流程。该方案需对输入的 NVFP4 张量进行反量化与转置,随后通过旋转矩阵乘法处理,聚合绝对最大值并应用 MS-EDEN 校正,最终输出量化结果。此流程需要两次加载和旋转张量,导致内存带宽与计算成本翻倍,为后续优化提供了基准参照。

7.2 事后范围对齐

为避免双重加载与旋转操作,我们为 MS-EDEN 设计了事后范围对齐方案。

在第一个 kernel 中,我们跳过预计算 AbsMax 的范围对齐步骤,直接将缩放值舍入至 E8M3 格式(以 BF16 表示),并用其对张量做除法,将结果量化为 FP4。我们将此 E8M3 缩放与 FP4 数值的组合称为扩展范围 NVFP4。旋转完成后,我们在同一 kernel 内同步缩减全局绝对最大值并计算 EDEN 校正因子,从而彻底省去对原始张量的额外加载与旋转。

在第二个 kernel 中,我们加载 E8M3 伪缩放与缩减后的 FP32 全局最大值,先将伪缩放映射至 FP8 可表示区间,再应用 EDEN 校正,最后通过随机舍入将其量化为 FP8,从而获得无偏的梯度估计。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 8:改进的事后范围对齐 MS-EDEN 重量化内核流程。

图 8 展示了优化后的事后范围对齐内核流程。该方案引入扩展范围 NVFP4 格式,在同一内核中完成旋转、全局最大值缩减与 EDEN 校正,最后将伪缩放移位并量化。此设计减少了约 20% 的内存带宽消耗,且第二个内核仅处理缩放,其延迟降至原方案的 1/10 以上。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
表 2:朴素型与事后范围对齐型 MS-EDEN 重量化内核的带宽与计算复杂度对比。

表 2 从每元素移动比特数和 GEMM 调用次数两个维度,对比了两种方案的全局内存带宽与矩阵乘法指令复杂度。由于第二个 kernel 仅执行缩放操作,所需数据搬运量远小于初始量化过程,因此理论带宽可节省约 20%,实际延迟亦显著降低。

我们为 NVIDIA RTX 5090 GPU 实现并完成了基准测试:针对其三个独有的 Quartet II 反向传播量化操作,以及前向传播中采用的 Four-Over-Six 量化方案,均开发了定制化 CUDA kernel;矩阵乘法则基于 QuTLASS(Castro & Alistarh,2025)。

为弱化分布式训练设置、注意力机制实现、词表规模等外部因素的干扰,我们聚焦于线性层这一核心计算单元,单独评估其加速效果。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
图 6 展示了不同模型规模下线性层计算方案相对于 BF16 的训练加速比,包含 Quartet II(NVFP4)、Quartet(MXFP4)、MXFP8 三种方案,模型规模涵盖 800M、3B、7B、22B。

如图 6 所示,Quartet II 在线性层训练中相较 BF16 实现提速超 4 倍;相比当前最优的 FP4 训练 kernel(例如 Castro 等人于 2025 年提出的 Quartet),性能进一步提升约 70%。

更关键的是,该优势在真实场景中同样显著:我们在 10 亿参数(1B)大语言模型的端到端预训练任务中验证了 Quartet II 的实际效能——相比 BF16,整体训练吞吐量提升超过 2.4 倍。

这一结果不仅印证了底层 kernel 的高效性,也表明 Quartet II 能在保持数值稳定性与模型收敛性的前提下,切实加速大规模模型训练流程。

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
表 4 为所有模型规模和量化设置下类 Llama 模型共用的超参数,包含序列长度、批次大小、优化器、学习率调度、梯度裁剪、GPU 数量、权重衰减、优化器/累加器数据类型等关键训练参数。该表统一了类 Llama 模型量化训练的基础训练配置,采用 AdamW 优化器、余弦学习率调度并搭配 10% 预热,梯度裁剪与权重衰减的设置有效保证训练稳定性。FP32 的优化器数据类型兼顾精度与训练效率,8 卡 GPU 的配置为大批次训练提供算力支撑,让量化方案的性能对比更具客观性。

八、结论

我们借鉴分布式优化的思想,提出了一种新型微缩放格式无偏量化方案——MS-EDEN。基于该方案,我们进一步设计了 Quartet II,一种面向 NVFP4 的大语言模型(LLM)预训练计算框架。

实验表明,MS-EDEN 提供的理论保障更优,直接转化为更高的模型质量;同时,Quartet II 还融合了量化感知训练(QAT)启发式策略,进一步提升了性能。我们还提供了完整的 CUDA kernel 实现,从硬件层面验证了该方案的实用性与可部署性。

参考文献

突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低
突破NVFP4量化瓶颈:Quartet II与MS-EDEN实现4.2倍训练加速与20%损失降低


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20860

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • 构建自我进化的AI智能体:从静态提示到动态协作训练架构全解析

    在智能体(Agentic)系统中,无论是用于工具调用还是复杂推理,其行动通常由提示词(Prompts)引导。然而,传统的提示词是静态的,它们仅能提供行动步骤,却无法实现自我进化。真正的智能体训练(Agentic Training)源于系统在动态环境中的学习、适应与协作能力。 在智能体架构中,每个子智能体(Sub-Agent)的目标各异,这意味着单一的算法无法…

    2025年11月15日
    10700
  • DeepSeek突破残差连接瓶颈:流形约束超连接架构让千亿参数模型训练更稳定

    2026年开年,DeepSeek发布了一项新研究《mHC: Manifold-Constrained Hyper-Connections》。这篇论文直接挑战了残差连接的垄断地位,提出了一种全新的网络连接方式。 残差连接的隐形天花板 残差连接(Residual Connection)自ResNet提出以来,已成为深度学习的核心组件。它通过一个简单的加法操作 x…

    2026年1月2日
    8500
  • 尤洋教授深度剖析:算力转化瓶颈与AGI突破路径

    2026年即将到来,AI的发展已经进入一个新阶段:我们取得了惊人成就,却也同时面临进一步增长的瓶颈。 新加坡国立大学(NUS)的尤洋教授近期发表了一篇深度分析:《智能增长的瓶颈》。 在这篇分析文章中,尤洋教授从技术本质出发,直指智能增长的核心矛盾,并揭示了AGI(通用人工智能)的可能路径。 核心观点 智能增长的本质不是架构变革,而是算力如何转化为智能:AI的…

    2025年12月31日
    12700
  • 马斯克Colossus 2超算集群震撼上线:1GW算力创世界纪录,Grok 5训练加速,但电网危机隐现

    全球首个GW级超算集群Colossus 2震撼上线 刚刚,全球首个GW级超算集群Colossus 2,正式投入运行。 马斯克兴奋地宣布: 这是全球首个达到1GW的超算集群,4月还将进一步升级至1.5GW。 网友直呼疯狂:「1.5GW,光是插座估计都得给墙壁装满了。」 有了这剂算力强心针,Grok的忠实拥趸已经开始畅想Grok 5的统治时代。 但在全网狂欢的背…

    2026年1月18日
    11700
  • Gemini3预训练负责人揭秘:从无限数据到数据受限,AI研究正演变为复杂系统工程

    Gemini 3的逆袭,给业界带来了太多的惊喜和问号。 与此前不同的是,业界到现在似乎也没有逆向出Gemini3的秘方出来。 本周五,继谷歌两位大佬 Demis、Jeff Dean 播客访谈之后,终于有一位一线的负责人出来爆料了。这位可没有前面两位大佬嘴严。 Google DeepMind 的 Gemini 3 预训练负责人 Sebastian Bourjo…

    2025年12月21日
    20001