关键词:三元量化、细粒度稀疏、3:4稀疏模式、权重陷阱、退火残余突触
大语言模型(LLM)的部署正面临一个根本性矛盾:模型规模持续扩大与终端硬件资源受限之间的矛盾。云端推理虽然强大,但数据隐私、网络延迟、服务成本等问题日益突出,将LLM推向边缘设备已成为必然趋势。
在众多模型压缩技术中,权重量化因其直接降低模型尺寸和计算开销而备受关注。然而,大多数现有量化方法(如GPTQ、AWQ、QLoRA)都针对服务器级GPU优化,依赖混合精度计算等复杂硬件原语,难以在异构的边缘和移动硬件上高效运行。

- Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification
- https://arxiv.org/pdf/2601.07892
- 代码:https://github.com/Tencent/AngelSlim
三元量化提供了一个引人注目的解决方案:将权重限制为集合{+1, 0, -1},配合基于查找表(Lookup Table, LUT)的推理引擎,可以将昂贵的浮点乘法转换为高效的加法操作。这种内在的硬件友好性使其成为边缘部署的理想候选。
1.58比特是三元量化(权重取三种值)的理论最小比特数,由信息论公式计算而来:对应3种离散状态,所需比特数为log₂(3) ≈ 1.58 bit。
然而,实际硬件因对齐要求,会采用1.67 bit、2 bit等实际打包方式,存在比特损耗的根本性困境,具体来说:
- 2-bit策略:将每个三元值填充为2比特,虽保持计算规整性和SIMD对齐,但浪费比特(实际位宽2比特 vs 理论1.58比特)。
- 1.67-bit策略:将3个权重建模进5比特,相比2-bit策略(1个权重占2比特)虽降低位宽,但引入严重的算术低效——现代硬件加速器的SIMD单元针对2的幂次操作数分组优化,这类分组能让硬件实现并行化数据加载和计算,最大化算力利用率。而1.67-bit的3路分组是非2的幂次结构,属于硬件非对齐模式,无法适配SIMD的原生并行逻辑。这种非对齐模式反而引入大量位混洗(Shuffle)、数据拆分与重组的额外开销,导致推理速度慢于2-bit策略。

图2 | (左)2比特策略将每个权重打包为2比特以保持对齐,导致大量比特浪费;(中)1.67比特策略将3个权重打包为5比特,引入不兼容SIMD的3路模式,导致速度变慢;(右)我们的Sherry采用3:4稀疏性,将4个权重打包为5比特,引入兼容SIMD的4路模式,实现了更小的1.25比特宽度和更快的推理速度,更多细节见图9。
本文介绍的Sherry框架通过引入3:4细粒度结构稀疏,其中,4代表每个结构化稀疏块的总权重数量,3代表该块中被保留的非零三元权重(±1)数量,剩余1个权重被固定为0,是N:M结构化稀疏在三元量化中的定制化最优设计。
从而实现了1.25-bit有效位宽且与SIMD完美对齐;同时提出Arenas退火残余突触机制,解决了稀疏三元训练中的“权重陷阱”问题,在LLaMA-3.2模型上达到SOTA性能,并带来25%的比特节省和10%的推理加速。

表1 | 不同三元量化方法下Sherry的性能对比。本表格对比了Sherry与各类三元量化方法在LLaMA-3.2-1B和3B模型上的性能表现,在五个零样本基准任务(ARC-e、ARC-c、HelS、PIQA、WinG)中开展评测;最优结果标为紫色,次优结果标为蓝色,半精度(BF16)结果以灰色展示作为参考,所有实验结果均为三次独立随机种子实验的平均值。该表是Sherry与主流三元量化方法的核心性能对比,覆盖1B和3B两大模型尺度,实测五大经典零样本推理任务。结果显示,1.25比特的Sherry在1B模型上与1.67比特的SOTA方法Tequila精度持平,平均得分均为0.519,3B模型上仅略低0.009,却实现25%的比特节省。相较传统静态和可学习量化方法,Sherry在低比特下的性能优势显著,验证了3:4稀疏结构与Arenas模块的有效性。
关键问题
问题一、3:4稀疏模式的最优性是否具有普适性?
作者提出的3:4细粒度稀疏模式实现了1.25-bit的位宽,并声称其是LUT-based引擎的最优解。这种稀疏模式是否在所有场景下都能保持“最优”? 例如,当模型规模进一步扩大(如70B+)或硬件架构不同(如支持更灵活的张量核)时,3:4是否会成为限制表达能力的瓶颈?
论文中,3:4 稀疏模式的最优性是基于特定硬件约束推导的:SIMD 对齐要求块大小 M 为 2 的幂,LUT 容量限制索引位不超过 4 位,且稀疏度需低于 50%(即密度 ≥50%)。稀疏度约束源于三元量化经典研究(Zhu et al., 2016)的核心结论:当三元模型的稀疏度超过 50%(即密度 < 50%)时,模型的表征能力会发生剧烈退化。这是因为三元权重本身仅包含 {+1, 0, -1} 三种状态,表达能力远弱于全精度权重,若再将超过一半的权重置 0,会直接剥夺模型捕捉数据特征的核心能力,导致任务性能大幅下降。在以上约束下,M=4 且 N=3 是最优组合。
- M 代表每个连续权重块的总元素数量,是稀疏模式的块大小。
- N 代表每个 M 大小的权重块中,被保留的非零三元权重(±1)数量,剩余的 M-N 个权重被固定为 0,是稀疏模式的非零元素数。
这个组合恰好用 5 位(1 符号位+4 索引位)饱和利用了 2^4 项 LUT,同时保持 75%密度,被证明是 LUT-based 推理引擎的“局部最优解”。
然而,作者在 Limitation 部分明确承认,其评估【仅针对】 3B 以下模型,更大规模(如 70B+)的适用性【尚未】验证。
* 当模型规模扩大时,权重分布和梯度动态可能变化,3:4 的固定稀疏模式可能成为表达能力瓶颈——例如,若需要更高容量,则需增加密度或放宽对齐约束。
* 此外,若硬件支持更灵活的张量核,如 NVIDIA 的稀疏张量核原生支持 2:4,则 3:4 可能无法直接利用这些专用加速单元,导致性能不及硬件定制方案。
因此,3:4 的最优性并非普适,而是针对特定边缘硬件和 LUT 推理引擎的设计折中。论文本身也指出,未来需在服务器级 GPU 上进一步验证,暗示了其适用范围存在边界。
问题二、Arenas 的训练开销是否值得?
Arenas 机制通过引入可衰减的全精度残差来缓解“权重陷阱”问题,但其训练阶段的计算开销明显增加。这种训练复杂度是否会在实际部署中抵消掉推理阶段的效率优势? 特别是对于资源受限的边缘设备,是否真的值得在训练阶段付出这样的代价?
Arenas 机制在训练阶段引入全精度残差,确实增加了计算和内存开销。但文中作者强调,这是单次训练成本,且推理阶段残差完全消失(退火至 0),因此对部署无影响。该设计的核心目标是在保证三元量化与稀疏结构稳定收敛的前提下,只在训练过程中付出额外开销,推理阶段则完全回归轻量化、硬件友好的三元权重形态,不增加任何边缘设备上的存储与计算负担,从而在模型精度与部署效率之间实现良好平衡。对于资源受限的边缘设备,推理效率是核心关注点,而训练通常在云端完成。
作者实验表明,Arenas 显著提升了模型性能(如有效秩从 <750 恢复至接近全精度水平),使 1.25-bit 模型达到甚至超越 1.67-bit SOTA 精度,同时推理速度提升 10%~18%。这种精度-效率权衡对边缘部署极为有利:一次性的训练投入换来永久性的存储和计算节约。
此外,Arenas 的可控退火调度(如余弦衰减)允许在训练后期逐渐移除残差,避免对收敛稳定性造成负面影响。
因此,尽管训练开销存在,但其带来的性能增益和推理效率提升完全值得,尤其适用于需要长期低成本推理的边缘场景。论文的 Limitation 也提及,对于训练预算受限的研究者,此开销需纳入考量,但并未否定其必要性。
一、背景与问题定义
1.1 三元量化的数学形式
为理解 Sherry 的创新,首先需要准确把握三元量化的数学本质。
以逐通道量化为例,对全精度权重矩阵 W,通用三元量化函数 Q 定义为:
W_q = Q(W) = s · T
其中 T 为三元权重矩阵,s 为逐通道缩放因子,Δ 为量化阈值。
推理时,输入 x 与量化权重的计算为 y = x * W_q。关键在于:通过 LUT 引擎,这个计算可以完全消除乘法——将输入分段,每段预计算局部查找表,用对应的三元权重索引直接取出结果。
1.2 量化感知训练
由于三元压缩极为激进,量化感知训练对恢复模型精度至关重要。前向传播中动态量化,反向传播因 Q 不可导而采用直通估计器:
∂L/∂W = ∂L/∂W_q
训练完成后,全精度权重 W 被丢弃,只保留三元权重 T 和缩放因子 s。
1.3 核心挑战再审视
虽然三元量化理论下限为 log₂(3) ≈ 1.58 比特,但实际硬件实现存在两种次优策略:
- 2-bit 策略(如 T-Mac):每个三元值用 2 比特存储,虽保持计算规整性,但相比 2-bit 整数量化,三元集的存储优势被抵消。
- 1.67-bit 策略(如 BitNet.cpp):将 3 个权重建模进 5 比特,但现代硬件加速器针对 2^n 操作数分组优化,这种非对齐模式导致严重的位混洗开销。
替代策略 如 5 个权重建模进 8 比特(1.6-bit)会指数级增大查找表,使其不适合 LUT 边缘引擎。因此,现有三元量化陷入内存占用与推理速度的权衡困境。
二、Sherry 核心创新一:3:4 稀疏三元量化
2.1 N:M 结构化稀疏
Sherry 的首要目标是在不牺牲推理吞吐的前提下实现实质性比特节省。基于三元模型固有稀疏性的观察,Sherry 采用N:M 结构化稀疏约束:每个连续 M 个权重中恰好有 N 个非零。
传统 N:M 稀疏(如 2:4 模式)通常与特定 GPU 内核耦合,但 Sherry 利用乘法无关的 LUT 引擎,将稀疏约束与专用硬件原语解耦。

图 1 | 不同三元量化打包策略的效率对比。该图直观呈现了不同位宽打包策略在效率上的差异,横轴为位宽(1.2-2.2 比特),纵轴包含速度提升(10%)和比特节省(25%)等关键指标。右散点:2-bit 对齐(比特浪费);下散点:1.67-bit 不规则打包(速度下降);右散点:Sherry 的 3:4 稀疏打包(1.25-bit,速度与内存双赢),Sherry 提出的 1.25 比特方案,通过 3:4 结构化稀疏实现了比特节省与速度提升的双重优化,完美解决了现有策略的核心矛盾,为边缘设备部署提供了效率基准。
Sherry 这种架构自由使我们能够探索3:4 结构化稀疏模式,实现高效的 1.25-bit 位宽,该方案将每 4 个权重统一打包为 5 bit 进行编码,通过 5 除以 4 的计算即可得到每权重 1.25 比特的平均位宽。
Sherry 的优化目标是最小化全精度权重 W 与稀疏三元表示 W_q 之间的 L2 重建误差,受 3:4 稀疏约束:
min_{s, T} ||W – s·T||_F^2, s.t. ||T_i||_0 = 3
其中 ||·||_0 强制每块恰好三个非零三元值。
2.2 最优求解:Sparse-AbsMean 策略
上述目标函数可通过贪婪的 Sparse-AbsMean 策略获得最优解。对每个块 B,我们剪枝绝对值最小的元素,为剩余三个赋予三元值。
符号最优性证明:对任意非零元素,二次项 (w_i – s·t_i)^2 在 t_i 与 w_i 同号时最小。若 t_i 与 w_i 异号,翻转符号会增加相关性 |w_i|,对任意 s>0 严格减小目标函数。
索引最优性证明:设 4 元素块内绝对值排序为 |w_(1)| ≥ |w_(2)| ≥ |w_(3)| ≥ |w_(4)|。块的相关性和为 ∑_{i∈S} |w_i|,其中 S 为所选 3 个元素的索引集。要最大化此和,必须选择三个最大绝对值对应的索引 (1)、(2)、(3)。
综合符号与索引选择,每块最优三元元素为:
t_i = sign(w_i) if i ∈ S, else 0
代入求得最优缩放因子:
s_j = (∑_{i∈S_j} |w_i|) / 3
其中 S_j 为第 j 列非零索引集。
原文在附录 D 提供了完整的最优性证明,这里略。
2.3 3:4 格式的最优性证明
为什么偏偏是 3:4?同样是在附录 C 给出了严格的数学证明。3:4 格式在四个维度上代表三元量化的理想“甜点”:
甜点1:SIMD 友好对齐
- M 取 4 是 2 的幂次,能与激活分段的硬件布局匹配,满足 SIMD 向量加载的对齐要求,使硬件可并行加载处理数据。
- 而 1.67-bit 方案采用 3 路分组,并非 2 的幂次,无法适配 SIMD 的原生设计,需要额外的位拆分与重组操作。Sherry 的设计直接消除了这类硬件适配所需的复杂位混洗开销,从而提升了推理效率。
甜点2:安全稀疏余量
先前研究(Zhu et al., 2016)表明,三元量化中稀疏度超过 50% 会显著削弱模型表征能力,导致性能骤降。因此,50% 是保障模型表达容量的稀疏度红线。
Sherry 采用的 3:4 结构化稀疏,使每 4 个权重块中仅有 1 个被置为 0,实现了 25% 的稀疏度。这一数值远低于 50% 的临界值,处于性能安全余量之内。该设计既通过轻量稀疏实现了硬件友好的低比特打包,又充分保留了模型的表达能力,避免了特征丢失与性能退化。
甜点3:最优比特状态利用
在 3:4 稀疏设计中,权重块内 {+1, 0, -1} 三种状态的组合,经计算可产生 16 种独特的权重排列。而 5 比特索引的最大可表征数恰好也是 16,二者完美匹配,实现了 5 比特索引空间的饱和利用。
该设计确保了每一种比特状态都对应一个有效的权重排列,没有任何比特冗余,从而最大化了比特状态的利用效率。这也是 3:4 稀疏成为硬件友好型设计的关键所在。
甜点4:LUT 推理兼容性
3:4 模式与基于查找表(LUT)的三元推理引擎原生兼容。受标准 SIMD 寄存器指令(如 AVX2 vpshufb)128-bit 位宽约束,单指令查找表的最大容量为 16 字节。通过利用三元状态的镜像对称性,Sherry 将 5-bit 表示拆分为 1 个符号位和 4 个索引位,完美契合了该硬件限制。
图 9 | Sherry 基于查找表(LUT)的推理引擎。该引擎从输入激活构建动态查找表,权重索引用于调取预计算值。流程分为离线打包和在线推理两阶段:离线阶段,3:4 稀疏三元权重被打包为 5 比特结构(4 比特索引 + 1 比特符号),确保硬件对齐;在线阶段,先对输入激活预处理生成局部 LUT,再通过权重索引直接调取预计算结果,以高效的内存查找替代浮点乘法,最后通过符号应用、整数累加和通道缩放得到最终输出。该引擎充分利用 LUT 范式的硬件友好性,结合 3:4 稀疏的结构化优势,实现了 1.25 比特量化的理论效率,且仅需对现有低比特推理内核进行最小修改即可部署。
此外,原论文附录 C 指出:在不同 N:M 候选格式中,只有 3:4 能同时满足 SIMD 对齐、LUT 容量限制、安全稀疏阈值,并完美填满 16 项的 LUT。
三、Sherry 核心创新二:Arenas 退火残余突触
3.1 权重陷阱:稀疏三元训练的致命伤
尽管 3:4 结构化稀疏具备硬件和比特利用优势,但将其直接应用于三元量化往往导致模型性能显著下降。论文首次识别出这一问题的根本原因——权重陷阱。
图 3 | LLaMA-1B 在不同量化方案下的权重分布对比。(左)朴素 3:4 稀疏三元训练存在权重陷阱问题,数值坍缩为类二元极化分布,与稠密模型相比存在显著精度差距;(右)Sherry 利用 Arenas 模块实现无陷阱分布,缩小了与稠密三元模型的性能差距。该图揭示了稀疏三元训练的核心瓶颈——权重陷阱。左图中,朴素的 3:4 稀疏约束导致权重集中于局部区域,呈现类二元分布,精度差距超过 4.5%,其本质是梯度同质化引发的表征坍缩。右图中,Sherry 通过 Arenas 模块注入异质梯度,打破了权重极化趋势,使分布更平滑,精度差距缩小至 0.1% 以下。这一对比验证了 Arenas 模块在维持表征多样性、解决权重陷阱问题上的关键作用。
如图 3 左所示,在硬性的 3:4 剪枝约束下,权重倾向于向特定值极化,最终分布模仿二值量化。这种坍缩阻止了模型利用三元集的表达容量,本质上使其陷入次优的类二值状态(见图 10 右上)。
图 10 | 不同量化机制下的权重分布。Arenas 模块的引入有效缓解了二元和朴素三元量化中的陷阱现象。该图进一步验证了 Arenas 模块的泛化能力,覆盖了 1 比特二元训练和朴素三元训练两种场景。左上图显示 1 比特训练中权重集中于特定区间,精度仅 47.3%;右上图加入 Arenas 后,权重分布更分散,精度提升至 48.9%。左下图显示朴素三元训练存在“死区”陷阱,权重难以跨越零值边界;右下图显示 Arenas 模块通过异质梯度注入,使权重分布覆盖更广泛区间,同样实现了精度提升。这一结果证明,权重陷阱是低比特量化的共性问题,而 Arenas 模块通过打破梯度同质化,为不同量化场景提供了通用的陷阱缓解方案。
3.2 根源:梯度同质化
研究发现,这种性能停滞由梯度同质化驱动。在 3:4 稀疏配置中,零点在权重块内均匀分布,导致稀疏矩阵的行为类似于稠密的二值矩阵。这种均匀分布模仿了 Hadamard 变换的性质,使信号扁平化。因此,关于激活 A 的下游梯度变得日益同质化:
传递到前层的梯度变得无差异,迫使大多数权重在训练中表现出相似的行为,显著降低了表达的多样性。
作者采用有效秩(Effective Rank, ER)来量化梯度多样性。给定梯度矩阵 G,设其奇异值为 σ_i,归一化后得到概率分布 p_i,则有效秩定义为:
有效秩的取值范围为 1 到矩阵的秩 r。具体来说:
* 接近 1 表示梯度高度同质化,更新坍缩为单一主导方向;
* 接近 r 表示高秩、多样化的更新。
图 4 | 训练过程中梯度的有效秩(ER)。二元和 3:4 稀疏三元训练均因梯度同质化导致有效秩相对较低。有效秩(ER)是衡量梯度多样性的核心指标,值越接近矩阵维度表示梯度信息越丰富。图中可见,二元训练和朴素 3:4 稀疏三元训练的 ER 均低于 750,远低于梯度矩阵 4096 的总维度,表明梯度同质化严重,模型学习自由度受限。而 Sherry 通过 Arenas 模块引入连续权重矩阵 W,使梯度中注入异质信息,有效提升了 ER 值,避免了谱坍缩。这一结果从梯度动力学层面解释了权重陷阱的成因,也验证了 Arenas 模块打破梯度同质化的有效性。
图 4 显示:3:4 稀疏训练的有效秩较低(ER < 750),尽管梯度矩阵总维度为 4096,但其光谱坍缩程度与二值量化相当,表明模型的学习自由度显著丧失。
原文附录 F 详述了有效秩的计算方法及其在梯度分析中的应用。下面引用附录部分的一张权重分布图示:
图 11 | 不同层的权重分布及其梯度的有效秩(ER)。该图聚焦于模型不同层(mlp.down_proj、self_attn.v_proj、self_attn.k_proj)的权重分布与梯度有效秩差异。朴素 3:4 稀疏三元模型的权重分布呈现明显极化特征,且各层梯度有效秩偏低,表明梯度信息匮乏,学习能力受限;而 Sherry 的权重分布更均匀平滑,梯度有效秩显著更高,尤其是在注意力层(self_attn.v_proj、self_attn.k_proj),有效秩提升更为明显。这一对比揭示了 Arenas 模块对不同层的普遍优化效果,证明其能在关键网络层维持梯度多样性,避免局部表征坍缩,为模型整体性能提升奠定基础。
3.3 Arenas:恢复表达多样性的创新机制
为恢复表达多样性,Sherry 提出了 Arenas——退火残余突触机制,通过一个连续的旁路将潜在权重幅度重新耦合到损失目标。
在训练阶段,三元线性层的输出增加了一个衰减的全精度残余突触 W:
Output = Q(X) + λ(t) * XW
其中 λ(t) 为调度系数,在训练结束时退火至零。这一设计使得全精度残余项在训练初期发挥作用,后期逐步消失,最终在推理阶段该项完全归零。潜在矩阵 W 被包含在前向传播中,从根本上改变了梯度动力学。关于潜在激活 X 的梯度变为:
∂L/∂X = ∂L/∂Q(X) * ∂Q(X)/∂X + λ(t) * ∂L/∂(XW) * W^T
该公式是在训练阶段引入全精度残差项后,对潜在激活的梯度推导结果。若无 Arenas 机制,3:4 稀疏三元训练的梯度为 ∂L/∂X,但 3:4 的硬稀疏约束会使三元权重矩阵 W^T 呈现类二值分布,导致梯度趋于同质化、有效秩极低。这使得前层网络只能接收无差别的更新信号,权重陷入类二值的权重陷阱,丧失三元量化的表征多样性。

图 5 | Arenas 模块与量化感知训练(QAT)的整体架构。Arenas 模块通过带退火门的残差突触注入异质梯度。该图展示了 Sherry 的核心训练架构,将 Arenas 模块与 QAT 流程深度融合。前向传播中,除三元权重 W^T 的计算外,引入衰减的全精度残差项 λₜXW,其中 λₜ 通过退火调度逐渐趋近于 0;反向传播时,残差项使梯度 ∂L/∂X 包含异质信息,打破 3:4 稀疏结构导致的梯度同质化。这一设计既通过残差项吸收量化噪声、补偿修剪误差,又能在训练末期完全移除辅助路径,实现零推理开销,完美平衡了训练稳定性与部署效率。
Arenas 机制通过在反向传播中融入全精度潜在权重矩阵 W 的连续值信息,让梯度计算引入 W 的联合项,为 ∂L/∂X 注入异质梯度信息,直接打破了 3:4 结构诱导的梯度同质化效应。这种异质梯度让模型前层能获得特化的参数更新,为陷入类二值状态的权重提供了逃离的优化“能量”,使其恢复多元的分布特征,保住三元模型的表达能力。
公式中的 λₜ 是随训练进程余弦退火至 0 的调度系数,其作用在两个阶段有所不同:
* 训练初期:λₜ 值较大,全精度残差的作用显著,重点解决梯度同质化与权重陷阱问题。
* 训练后期:λₜ 逐渐趋近于 0,残差项的影响逐步消失。最终在推理阶段 λₜ=0,梯度公式回归纯三元量化形式,模型仅保留 3:4 稀疏的三元权重 W^T,无任何额外的推理计算与存储开销,完美兼顾了训练稳定性与推理轻量化。
3.4 Arenas 的三重优势

图 4 | 训练过程中梯度的有效秩(ER)。二元和 3:4 稀疏三元训练均因梯度同质化导致有效秩相对较低。
- 方差注入与奇异性打破:通过重新引入连续矩阵 W,Arenas 防止梯度坍缩为同质化、低秩状态,使前层获得特化更新(图 4 右)。
- 自适应误差补偿:训练期间,残余项 λₜXW 自然吸收 3:4 三元约束引入的量化噪声和剪枝误差。这使得网络在稀疏三元权重 W^T 逐步学习捕获信号最显著成分时,保持高精度内部表示,实现更优优化。
- 零开销推理:由于 λₜ 退火至零,推理时完全消除残余项,不增加任何计算或内存开销。
3.5 退火调度的影响
论文比较了 λₜ 的三种衰减调度:线性、余弦、指数,及其带 warmup 的变体。
* 线性:λₜ = 1 – t
* 余弦:λₜ = 0.5 * (1 + cos(πt))
* 指数:λₜ = exp(-5t)
其中 t 为训练进度(0 表示开始,1 表示完成)。

图 7 | 退火因子 λₜ 的调度方案。图中展示了三种基础衰减策略(线性、余弦、指数)及其带预热的变体,横轴为 QAT 训练进度(0%-100%),纵轴为 λₜ 值(1.0-0.0)。线性策略保持恒定衰减速率,余弦策略在训练中期衰减更快,指数策略初期衰减迅速后趋于平缓。带预热的变体通过训练初期维持较高 λₜ,让模型先建立稳定表征再逐步强化稀疏约束,进一步提升性能。实验表明,余弦 + 预热调度为默认最优选择,既能通过残差项早期补偿量化误差,又能平稳过渡到纯稀疏三元模型,保障训练收敛与最终性能。

图 8 | 不同 λₜ 调度对比。所有调度均优于无 Arenas 基线,且 warmup 可提升各调度性能。该图聚焦 λₜ 调度方案对模型精度的影响,对比了无 Arenas 模块的基线与三种衰减策略(线性、余弦、指数)及其带预热的版本。结果显示,所有带 Arenas 的方案均显著优于基线,证明梯度异质注入的核心价值;其中带预热的调度(尤其是余弦 + 预热)表现更优,原因是预热阶段让模型在残差项辅助下适应量化约束,避免早期训练震荡。这一结果表明,合理的 λₜ 调度与 Arenas 模块的协同作用,能进一步释放稀疏三元模型的性能潜力,为训练超参数优化提供了明确方向。
关键发现:无论采用何种调度,Arenas 均能稳健提升性能,证明了其有效性不依赖于特定衰减曲线。warmup 带来的增益可能源于:通过逐步引入残余,模型在退火影响达到峰值前建立稳定基础。
四、相关工作
4.1 LLM 量化
量化已成为提升 LLM 效率的基石技术,通过降低权重和激活的比特精度(Dettmers et al., 2021, 2022; Lin et al., 2023b; Frantar et al., 2022)。然而,流行的权重量化方法(Lin et al., 2023b; Frantar et al., 2022)通常需要混合精度矩阵乘法,权重和激活驻留在不同数据格式中,这种异质性需要专用硬件支持才能在边缘和移动平台上维持吞吐。
权重-激活量化策略(Dettmers et al., 2022; Xiao et al., 2023)寻求统一低精度格式,但常遭遇“异常值问题”,极端激活值导致高量化误差。因此,激活达到与权重相同的超低精度仍具有挑战性。
4.2 三元量化
三元量化(Li et al., 2016; Zhu et al., 2016)通过将权重约束为 {-α, 0, +α} 提供范式转变。除大幅内存减少外,该方法从根本上简化核心矩阵乘法为加法,有效消除功耗密集的乘法器(Ma et al., 2025; Wang et al., 2023)。
早期研究主要关注通过阈值和缩放优化量化函数。
* TWN(Li et al., 2016)通过假设高斯权重分布最小化重建失真;
* TTQ(Zhu et al., 2016)引入可学习缩放因子;
* Leng et al.(2018)利用 ADMM 迭代优化参数。
LLM 的出现重新激发了对三元方案的兴趣,导致两个不同研究轨迹。
* 第一个利用 PTQ 最小化量化计算成本(Lin et al., 2023b; Frantar et al., 2022),但在超低位宽下性能下降显著。因此,QAT 成为稳健性能恢复的首选。
* 在 QAT 格局中,策略从 BitNet 家族使用的直接 AbsMean 缩放(Ma et al., 2025; Wang et al., 2023)到 LSQ(Esser et al., 2019)的更复杂适应(Chen et al., 2024b; Liu et al., 2025)。
推理引擎方面,llama.cpp 等经典框架仍依赖基于乘法的内核,需要权重复原和浮点操作。
* 为克服此问题,T-Mac(Wei et al., 2025)和 TENET(Huang et al., 2025c)提出 LUT 引擎消除乘法,但需将三元权重建模进 2-bit 容器。
* BitNet.cpp(Wang et al., 2025b)尝试通过 1.67-bit 打包策略(3 权重 5 比特)进一步减小占用,但 3 路打包固有 SIMD 不友好,引入显著位混洗开销,常导致性能慢于 2-bit 打包。
Sherry 通过引入硬件对齐的 3:4 结构化稀疏,在 1.25-bit SIMD 友好打包中解决了这一困境。
4.3 N:M 稀疏
N:M 结构化稀疏(Lin et al., 2023a; Zhou et al., 2021)已成为无结构剪枝灵活性与块剪枝硬件效率之间的关键中间地带。通过强制每 M 个连续权重中恰好 N 个非零,该模式提供高度可预测的内存访问模式,非常适于硬件加速。值得注意的是,NVIDIA Ampere 及后续架构(Lin et al., 2023a)引入对 2:4 稀疏的原生 Tensor Core 支持,在高精度模型中吞吐加倍且精度损失最小。
现有 N:M 稀疏研究(Sun et al., 2021; Fu et al., 2023; Zhang et al., 2023)主要聚焦于最优掩码选择与通过专门训练恢复模型性能。然而,这些工作大多未与超低位宽量化协同设计,因其主要针对 GPU 上的稀疏张量核心优化,而此类硬件目前优先支持 16-bit 或 32-bit 浮点运算。
在超低位宽场景下,N:M 稀疏与三元量化的交叉领域仍基本处于空白。此外,随着量化位宽降低,刚性的 N:M 约束会加剧权重陷阱现象。Sherry 将 N:M 范式扩展,引入了硬件对齐的 3:4 稀疏模式,并与 Arenas 模块耦合,专门设计用于弥合稀疏三元模型与稠密三元模型之间的精度差距,且推理过程零额外开销。 据我们所知, Sherry 是首个为超低位宽量化应用 N:M 稀疏提供硬件高效解决方案的工作。
五、实验评估
5.1 实验设置
数据集、模型与评估:
| 实验维度 | 具体设置 |
| :— | :— |
| 基础模型 | LLaMA-3.2-1B、LLaMA-3.2-3B(Touvron et al., 2023) |
| 量化方式 | 组量化,默认组大小为 128 |
| 训练数据 | 从 UltraFineWeb 数据集(Wang et al., 2025c)中采样的 10B tokens |
| 评估工具 | lm-evaluation-harness(Gao et al., 2024) |
| 评估任务 | 五个零样本任务:PIQA(Bisk et al., 2020)、ARC-Easy(ARC-e)、ARC-Challenge(ARC-c)(Clark et al., 2018)、HellaSwag(HelS)(Zellers et al., 2019)、WinoGrande(WinG)(Sakaguchi et al., 2021) |
| 基线位宽标注 | 现有三元量化基线标注 1.67bit(基于实际打包策略的比特密度),而非理论值 1.58bit |
三元量化基线:Sherry 与两类主流三元量化方法进行比较:
* 静态方法:包括 TWN(Li et al., 2016)、Tequila(Huang et al., 2025a)、BitNet(Ma et al., 2025; Wang et al., 2023)和 Spectra(Kaushal et al., 2025)所使用的 AbsMedian/AbsMean 策略。
* 可学习方法:如 DLT(Chen et al., 2024b)、LSQ(Esser et al., 2019)、ParetoQ(Liu et al., 2025)所使用的 SEQ 策略。
实现细节:实验在 32 张 NVIDIA GPU 上进行训练,并在 Intel 8263C CPU 上评估推理吞吐量以验证边缘效率。对 Transformer 架构中的所有线性层进行量化,序列长度为 1024。学习率固定,退火系数默认采用带 warmup 的余弦衰减调度器。
5.2 性能评估
5.2.1 三元量化方法对比

表 1 | 不同三元量化方法下 Sherry 的性能对比。 本表格对比了 Sherry 与各类三元量化方法在 LLaMA-3.2-1B 和 3B 模型上的性能表现,评测基于五个零样本基准任务(ARC-e、ARC-c、HelS、PIQA、WinG)。最优结果标为紫色,次优结果标为蓝色,半精度(BF16)结果以灰色展示作为参考,所有实验结果均为三次独立随机种子实验的平均值。
如表 1 所示,Sherry 在 1B 和 3B 模型尺度上均与当前 SOTA 方法 Tequila 性能相当,尽管采用了显著更低的 1.25 位宽。在 1B 模型上,Sherry 与 SOTA 方法的平均准确率完全匹配(均为 0.519),在降低 25% 位宽的同时与 1.67-bit 基线持平。值得注意的是,在 ARC-Challenge 等推理密集型基准上,Sherry 甚至超越了 Tequila,将性能差距缩小至与全精度 BF16 基线不到 0.5%。
这些结果证明:3:4 结构化稀疏保持了模型的高层语言能力,而 Arenas 模块成功解决了优化陷阱问题。 这种协同作用使得高效的打包策略成为可能,同时确保了卓越的硬件对齐性和有竞争力的模型质量。
5.2.2 三元 LLM 对比
为进一步评估 Sherry 的有效性,将所得模型命名为 SherryLLM,并与现有基于 LLaMA 架构的三元大模型进行比较。为公平对比,我们复现了具有可用训练代码的方法(Liu et al., 2025; Chen et al., 2024b),在 UltraFineWeb 数据集的 10B tokens 上使用相同超参数进行训练,同时报告其他方法的原始发表结果。

表 2 | 基于 LLaMA 的三元大模型中 SherryLLM 的性能对比。 本表格对比了 SherryLLM 与多款基于 LLaMA 架构的三元大模型在不同模型尺度下的性能。标注∗的结果为本文复现所得,其余为原文献公布结果。最优与次优结果分别以紫色、蓝色标注,BF16 半精度结果作参考用灰色展示,所有数据均经三次独立实验取平均。
如表 2 所示,SherryLLM 在 1B 和 3B 尺度上,尽管位宽显著降低至 1.25 比特,仍取得了至少第二优的平均准确率。这些结果证实:3:4 结构化稀疏与 Arenas 模块的集成有效保持了模型表达能力,使 SherryLLM 在保持竞争性性能的同时实现了 25% 的位宽降低。
5.2.3 量化粒度影响
量化粒度涉及硬件效率与表示精度间的关键权衡。
* 粗粒度(如逐张量) 量化能最大化硬件加速潜力,但常引入显著误差。
* 细粒度(如逐组) 策略通过增加缩放因子内存开销来缓解此问题。
作者在五个基准上评估了 Sherry 在逐张量、逐通道、逐组(组大小 128)三种粒度下的性能。

表 3 | Sherry 在不同量化粒度下的平均精度。 本表格展示了 Sherry 在张量级、通道级和分组级(分组大小 128)三种不同量化粒度下,在五大基准任务上的平均准确率及标准差。
表 3 显示,Sherry 在所有量化粒度下均保持了稳健的性能,退化最小。 这种 稳定性主要由 Arenas 模块驱动,该模块提供了连续的梯度流,使潜在权重能够适应不同的缩放约束。
5.2.4 Arenas 有效性
为验证训练框架的有效性,在三种量化方案上进行了消融实验:二值(1-bit)、3:4结构化稀疏(1.25-bit)和纯三元AbsMean(1.67-bit)。

图 6 | Arenas模块的消融实验结果。在1-bit、1.25-bit和1.67-bit三种配置下,引入Arenas模块均带来了一致的性能提升,验证了其普适有效性。
如图6所示,集成Arenas模块在所有配置中都带来了稳定的性能改进。 值得注意的是,所有方案均表现出显著增益,这归因于Arenas有效缓解了1-bit和1.67-bit方案中存在的权重陷阱问题。
5.2.5 推理效率
为实证验证Sherry的效率,在BitNet.cpp框架内采用逐通道量化,并在Intel i7-14700HX CPU上评估了令牌生成速度。对比基线包括1.67-bit(TL2)、2-bit(I2_S)以及BF16精度。Sherry与所有基线均遵循BitNet.cpp范式。

表 4 | Intel i7-14700HX处理器上的推理效率对比。本表格展示了0.7B和3B模型尺度下,不同量化方法的推理效率(以每秒生成token数衡量,越高越好)和模型体积(越低越好)。基准方法包括BF16、2.0-bit I2_S和1.67-bit TL2。实验结果显示,Sherry在1.25-bit下实现了速度与体积的双重优化:0.7B模型达到148.27 token/s,较1.67-bit TL2提升27%;3B模型达到45.55 token/s,提升18%。同时,其模型体积较2.0-bit和1.67-bit基线进一步降低。核心原因在于3:4稀疏结构适配的5-bit打包方案与SIMD向量车道对齐,消除了非2的幂次打包带来的位混洗开销,从而大幅提升了硬件利用率。
表4结果显示,Sherry的性能优于1.67-bit和2-bit变体。 具体而言,对于3B模型,Sherry比1.67-bit基线快18%(45.55 vs 38.80 token/s),模型大小从846MB降至712MB(减少16%)。此改进归因于3:4结构化稀疏与硬件对齐的5-bit打包方案,最大化利用了SIMD向量,消除了非2的幂次打包固有的位混洗开销。
5.2.6 调度影响
为评估退火过程的敏感性,比较了退火门控的三种衰减调度方式:线性、指数、余弦,以及它们各自结合warmup的变体。

图 8 | 不同调度策略对比。所有调度方案均优于未使用Arenas的基线,且引入warmup可进一步提升各调度方案的性能。
如图8所示,每种调度方案均一致优于无Arenas的基线,证明无论具体的衰减曲线如何,Arenas机制都稳健有效。 值得注意的是,warmup的引入为所有调度都带来了性能提升。这归因于warmup阶段早期的优化动力学:通过逐步引入残余连接,模型在退火影响达到峰值前建立了一个更稳定的基础。
六、讨论与局限性
尽管Sherry在推进LLM边缘部署效率方面取得了进展,但仍存在一些局限性,为未来研究指明了方向:
| 局限性类型 | 具体说明 |
| :— | :— |
| 边缘中心模型规模 | 评估聚焦于3B参数以内的模型,这类模型是本地边缘部署的核心候选。Sherry在该规模下实现了优异的帕累托前沿表现,但Arenas机制与3:4稀疏模式在70B+等更大规模的服务器级模型上的表现,仍有待后续验证。 |
| 缺乏服务器特定优化 | 为优先保障边缘推理效率,实验仅针对通用SIMD对齐向量打包做优化,未涉及NVIDIA稀疏张量核等服务器端专属硬件优化。该设计不影响Sherry在移动和本地处理器的使用,未来可在数据中心GPU上做基准测试,探索其在高吞吐服务器应用中的潜力。 |
| 仅权重量化 | 研究聚焦于仅权重的三元量化以提升边缘设备的权重流式吞吐效率。1.25-bit权重虽大幅降低静态内存占用,但激活值和KV-cache仍采用BF16精度。未来可结合激活量化技术,进一步缓解长上下文推理场景下的内存瓶颈。 |
| 训练开销 | Sherry的设计核心是实现推理阶段的效率最大化,但其Arenas机制会增加量化感知训练(QAT)阶段的计算开销。该开销为一次性成本,不会对边缘部署造成影响,但仍是训练预算受限的研究人员需要考量的因素。 |
七、结论
Sherry通过以下贡献,解决了三元量化中位宽与推理速度的权衡问题:
- 3:4结构化稀疏:实现了1.25-bit硬件对齐打包,消除了非2的幂次打包方案的位混洗开销。
- Sparse-AbsMean最优求解:证明并实现了3:4稀疏三元格式的最优构造方法。
- Arenas退火残余突触:识别并解决了权重陷阱问题,通过退火梯度注入恢复了模型的表达多样性。
- 全面实证验证:在LLaMA-3.2模型上达到了SOTA性能,同时降低了25%位宽并提升了10%的推理速度。
Sherry为在边缘设备上高效部署LLM提供了新的范式。代码已开源:https://github.com/Tencent/AngelSlim
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21712
