腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能

关键词：三元量化、细粒度稀疏、3:4稀疏模式、权重陷阱、退火残余突触

大语言模型（LLM）的部署正面临一个根本性矛盾：模型规模持续扩大与终端硬件资源受限之间的矛盾。云端推理虽然强大，但数据隐私、网络延迟、服务成本等问题日益突出，将LLM推向边缘设备已成为必然趋势。

在众多模型压缩技术中，权重量化因其直接降低模型尺寸和计算开销而备受关注。然而，大多数现有量化方法（如GPTQ、AWQ、QLoRA）都针对服务器级GPU优化，依赖混合精度计算等复杂硬件原语，难以在异构的边缘和移动硬件上高效运行。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能

Sherry: Hardware-Efficient 1.25-Bit Ternary Quantization via Fine-grained Sparsification
https://arxiv.org/pdf/2601.07892
代码：https://github.com/Tencent/AngelSlim

三元量化提供了一个引人注目的解决方案：将权重限制为集合{+1, 0, -1}，配合基于查找表（Lookup Table, LUT）的推理引擎，可以将昂贵的浮点乘法转换为高效的加法操作。这种内在的硬件友好性使其成为边缘部署的理想候选。

1.58比特是三元量化（权重取三种值）的理论最小比特数，由信息论公式计算而来：对应3种离散状态，所需比特数为log₂(3) ≈ 1.58 bit。

然而，实际硬件因对齐要求，会采用1.67 bit、2 bit等实际打包方式，存在比特损耗的根本性困境，具体来说：

2-bit策略：将每个三元值填充为2比特，虽保持计算规整性和SIMD对齐，但浪费比特（实际位宽2比特 vs 理论1.58比特）。
1.67-bit策略：将3个权重建模进5比特，相比2-bit策略（1个权重占2比特）虽降低位宽，但引入严重的算术低效——现代硬件加速器的SIMD单元针对2的幂次操作数分组优化，这类分组能让硬件实现并行化数据加载和计算，最大化算力利用率。而1.67-bit的3路分组是非2的幂次结构，属于硬件非对齐模式，无法适配SIMD的原生并行逻辑。这种非对齐模式反而引入大量位混洗（Shuffle）、数据拆分与重组的额外开销，导致推理速度慢于2-bit策略。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图2 | （左）2比特策略将每个权重打包为2比特以保持对齐，导致大量比特浪费；（中）1.67比特策略将3个权重打包为5比特，引入不兼容SIMD的3路模式，导致速度变慢；（右）我们的Sherry采用3:4稀疏性，将4个权重打包为5比特，引入兼容SIMD的4路模式，实现了更小的1.25比特宽度和更快的推理速度，更多细节见图9。

本文介绍的Sherry框架通过引入3:4细粒度结构稀疏，其中，4代表每个结构化稀疏块的总权重数量，3代表该块中被保留的非零三元权重（±1）数量，剩余1个权重被固定为0，是N:M结构化稀疏在三元量化中的定制化最优设计。

从而实现了1.25-bit有效位宽且与SIMD完美对齐；同时提出Arenas退火残余突触机制，解决了稀疏三元训练中的“权重陷阱”问题，在LLaMA-3.2模型上达到SOTA性能，并带来25%的比特节省和10%的推理加速。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
表1 | 不同三元量化方法下Sherry的性能对比。本表格对比了Sherry与各类三元量化方法在LLaMA-3.2-1B和3B模型上的性能表现，在五个零样本基准任务（ARC-e、ARC-c、HelS、PIQA、WinG）中开展评测；最优结果标为紫色，次优结果标为蓝色，半精度（BF16）结果以灰色展示作为参考，所有实验结果均为三次独立随机种子实验的平均值。该表是Sherry与主流三元量化方法的核心性能对比，覆盖1B和3B两大模型尺度，实测五大经典零样本推理任务。结果显示，1.25比特的Sherry在1B模型上与1.67比特的SOTA方法Tequila精度持平，平均得分均为0.519，3B模型上仅略低0.009，却实现25%的比特节省。相较传统静态和可学习量化方法，Sherry在低比特下的性能优势显著，验证了3:4稀疏结构与Arenas模块的有效性。

关键问题

问题一、3:4稀疏模式的最优性是否具有普适性？

作者提出的3:4细粒度稀疏模式实现了1.25-bit的位宽，并声称其是LUT-based引擎的最优解。这种稀疏模式是否在所有场景下都能保持“最优”？ 例如，当模型规模进一步扩大（如70B+）或硬件架构不同（如支持更灵活的张量核）时，3:4是否会成为限制表达能力的瓶颈？

论文中，3:4 稀疏模式的最优性是基于特定硬件约束推导的：SIMD 对齐要求块大小 M 为 2 的幂，LUT 容量限制索引位不超过 4 位，且稀疏度需低于 50%（即密度 ≥50%）。稀疏度约束源于三元量化经典研究（Zhu et al., 2016）的核心结论：当三元模型的稀疏度超过 50%（即密度 < 50%）时，模型的表征能力会发生剧烈退化。这是因为三元权重本身仅包含 {+1, 0, -1} 三种状态，表达能力远弱于全精度权重，若再将超过一半的权重置 0，会直接剥夺模型捕捉数据特征的核心能力，导致任务性能大幅下降。在以上约束下，M=4 且 N=3 是最优组合。

M 代表每个连续权重块的总元素数量，是稀疏模式的块大小。
N 代表每个 M 大小的权重块中，被保留的非零三元权重（±1）数量，剩余的 M-N 个权重被固定为 0，是稀疏模式的非零元素数。

这个组合恰好用 5 位（1 符号位+4 索引位）饱和利用了 2^4 项 LUT，同时保持 75%密度，被证明是 LUT-based 推理引擎的“局部最优解”。

然而，作者在 Limitation 部分明确承认，其评估【仅针对】 3B 以下模型，更大规模（如 70B+）的适用性【尚未】验证。
* 当模型规模扩大时，权重分布和梯度动态可能变化，3:4 的固定稀疏模式可能成为表达能力瓶颈——例如，若需要更高容量，则需增加密度或放宽对齐约束。
* 此外，若硬件支持更灵活的张量核，如 NVIDIA 的稀疏张量核原生支持 2:4，则 3:4 可能无法直接利用这些专用加速单元，导致性能不及硬件定制方案。

因此，3:4 的最优性并非普适，而是针对特定边缘硬件和 LUT 推理引擎的设计折中。论文本身也指出，未来需在服务器级 GPU 上进一步验证，暗示了其适用范围存在边界。

问题二、Arenas 的训练开销是否值得？

Arenas 机制通过引入可衰减的全精度残差来缓解“权重陷阱”问题，但其训练阶段的计算开销明显增加。这种训练复杂度是否会在实际部署中抵消掉推理阶段的效率优势？特别是对于资源受限的边缘设备，是否真的值得在训练阶段付出这样的代价？

Arenas 机制在训练阶段引入全精度残差，确实增加了计算和内存开销。但文中作者强调，这是单次训练成本，且推理阶段残差完全消失（退火至 0），因此对部署无影响。该设计的核心目标是在保证三元量化与稀疏结构稳定收敛的前提下，只在训练过程中付出额外开销，推理阶段则完全回归轻量化、硬件友好的三元权重形态，不增加任何边缘设备上的存储与计算负担，从而在模型精度与部署效率之间实现良好平衡。对于资源受限的边缘设备，推理效率是核心关注点，而训练通常在云端完成。

作者实验表明，Arenas 显著提升了模型性能（如有效秩从 <750 恢复至接近全精度水平），使 1.25-bit 模型达到甚至超越 1.67-bit SOTA 精度，同时推理速度提升 10%~18%。这种精度-效率权衡对边缘部署极为有利：一次性的训练投入换来永久性的存储和计算节约。

此外，Arenas 的可控退火调度（如余弦衰减）允许在训练后期逐渐移除残差，避免对收敛稳定性造成负面影响。

因此，尽管训练开销存在，但其带来的性能增益和推理效率提升完全值得，尤其适用于需要长期低成本推理的边缘场景。论文的 Limitation 也提及，对于训练预算受限的研究者，此开销需纳入考量，但并未否定其必要性。

一、背景与问题定义

1.1 三元量化的数学形式

为理解 Sherry 的创新，首先需要准确把握三元量化的数学本质。

以逐通道量化为例，对全精度权重矩阵 W，通用三元量化函数 Q 定义为：

W_q = Q(W) = s · T

其中 T 为三元权重矩阵，s 为逐通道缩放因子，Δ 为量化阈值。

推理时，输入 x 与量化权重的计算为 y = x * W_q。关键在于：通过 LUT 引擎，这个计算可以完全消除乘法——将输入分段，每段预计算局部查找表，用对应的三元权重索引直接取出结果。

1.2 量化感知训练

由于三元压缩极为激进，量化感知训练对恢复模型精度至关重要。前向传播中动态量化，反向传播因 Q 不可导而采用直通估计器：

∂L/∂W = ∂L/∂W_q

训练完成后，全精度权重 W 被丢弃，只保留三元权重 T 和缩放因子 s。

1.3 核心挑战再审视

虽然三元量化理论下限为 log₂(3) ≈ 1.58 比特，但实际硬件实现存在两种次优策略：

2-bit 策略（如 T-Mac）：每个三元值用 2 比特存储，虽保持计算规整性，但相比 2-bit 整数量化，三元集的存储优势被抵消。
1.67-bit 策略（如 BitNet.cpp）：将 3 个权重建模进 5 比特，但现代硬件加速器针对 2^n 操作数分组优化，这种非对齐模式导致严重的位混洗开销。

替代策略 如 5 个权重建模进 8 比特（1.6-bit）会指数级增大查找表，使其不适合 LUT 边缘引擎。因此，现有三元量化陷入内存占用与推理速度的权衡困境。

二、Sherry 核心创新一：3:4 稀疏三元量化

2.1 N:M 结构化稀疏

Sherry 的首要目标是在不牺牲推理吞吐的前提下实现实质性比特节省。基于三元模型固有稀疏性的观察，Sherry 采用N:M 结构化稀疏约束：每个连续 M 个权重中恰好有 N 个非零。

传统 N:M 稀疏（如 2:4 模式）通常与特定 GPU 内核耦合，但 Sherry 利用乘法无关的 LUT 引擎，将稀疏约束与专用硬件原语解耦。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 1 | 不同三元量化打包策略的效率对比。该图直观呈现了不同位宽打包策略在效率上的差异，横轴为位宽（1.2-2.2 比特），纵轴包含速度提升（10%）和比特节省（25%）等关键指标。右散点：2-bit 对齐（比特浪费）；下散点：1.67-bit 不规则打包（速度下降）；右散点：Sherry 的 3:4 稀疏打包（1.25-bit，速度与内存双赢），Sherry 提出的 1.25 比特方案，通过 3:4 结构化稀疏实现了比特节省与速度提升的双重优化，完美解决了现有策略的核心矛盾，为边缘设备部署提供了效率基准。

Sherry 这种架构自由使我们能够探索3:4 结构化稀疏模式，实现高效的 1.25-bit 位宽，该方案将每 4 个权重统一打包为 5 bit 进行编码，通过 5 除以 4 的计算即可得到每权重 1.25 比特的平均位宽。

Sherry 的优化目标是最小化全精度权重 W 与稀疏三元表示 W_q 之间的 L2 重建误差，受 3:4 稀疏约束：

min_{s, T} ||W – s·T||_F^2, s.t. ||T_i||_0 = 3

其中 ||·||_0 强制每块恰好三个非零三元值。

2.2 最优求解：Sparse-AbsMean 策略

上述目标函数可通过贪婪的 Sparse-AbsMean 策略获得最优解。对每个块 B，我们剪枝绝对值最小的元素，为剩余三个赋予三元值。

符号最优性证明：对任意非零元素，二次项 (w_i – s·t_i)^2 在 t_i 与 w_i 同号时最小。若 t_i 与 w_i 异号，翻转符号会增加相关性 |w_i|，对任意 s>0 严格减小目标函数。

索引最优性证明：设 4 元素块内绝对值排序为 |w_(1)| ≥ |w_(2)| ≥ |w_(3)| ≥ |w_(4)|。块的相关性和为 ∑_{i∈S} |w_i|，其中 S 为所选 3 个元素的索引集。要最大化此和，必须选择三个最大绝对值对应的索引 (1)、(2)、(3)。

综合符号与索引选择，每块最优三元元素为：

t_i = sign(w_i) if i ∈ S, else 0

代入求得最优缩放因子：

s_j = (∑_{i∈S_j} |w_i|) / 3

其中 S_j 为第 j 列非零索引集。

原文在附录 D 提供了完整的最优性证明，这里略。

2.3 3:4 格式的最优性证明

为什么偏偏是 3:4？同样是在附录 C 给出了严格的数学证明。3:4 格式在四个维度上代表三元量化的理想“甜点”：

甜点1：SIMD 友好对齐

M 取 4 是 2 的幂次，能与激活分段的硬件布局匹配，满足 SIMD 向量加载的对齐要求，使硬件可并行加载处理数据。
而 1.67-bit 方案采用 3 路分组，并非 2 的幂次，无法适配 SIMD 的原生设计，需要额外的位拆分与重组操作。Sherry 的设计直接消除了这类硬件适配所需的复杂位混洗开销，从而提升了推理效率。

甜点2：安全稀疏余量

先前研究（Zhu et al., 2016）表明，三元量化中稀疏度超过 50% 会显著削弱模型表征能力，导致性能骤降。因此，50% 是保障模型表达容量的稀疏度红线。

Sherry 采用的 3:4 结构化稀疏，使每 4 个权重块中仅有 1 个被置为 0，实现了 25% 的稀疏度。这一数值远低于 50% 的临界值，处于性能安全余量之内。该设计既通过轻量稀疏实现了硬件友好的低比特打包，又充分保留了模型的表达能力，避免了特征丢失与性能退化。

甜点3：最优比特状态利用

在 3:4 稀疏设计中，权重块内 {+1, 0, -1} 三种状态的组合，经计算可产生 16 种独特的权重排列。而 5 比特索引的最大可表征数恰好也是 16，二者完美匹配，实现了 5 比特索引空间的饱和利用。

该设计确保了每一种比特状态都对应一个有效的权重排列，没有任何比特冗余，从而最大化了比特状态的利用效率。这也是 3:4 稀疏成为硬件友好型设计的关键所在。

甜点4：LUT 推理兼容性

3:4 模式与基于查找表（LUT）的三元推理引擎原生兼容。受标准 SIMD 寄存器指令（如 AVX2 vpshufb）128-bit 位宽约束，单指令查找表的最大容量为 16 字节。通过利用三元状态的镜像对称性，Sherry 将 5-bit 表示拆分为 1 个符号位和 4 个索引位，完美契合了该硬件限制。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能图 9 | Sherry 基于查找表（LUT）的推理引擎。该引擎从输入激活构建动态查找表，权重索引用于调取预计算值。流程分为离线打包和在线推理两阶段：离线阶段，3:4 稀疏三元权重被打包为 5 比特结构（4 比特索引 + 1 比特符号），确保硬件对齐；在线阶段，先对输入激活预处理生成局部 LUT，再通过权重索引直接调取预计算结果，以高效的内存查找替代浮点乘法，最后通过符号应用、整数累加和通道缩放得到最终输出。该引擎充分利用 LUT 范式的硬件友好性，结合 3:4 稀疏的结构化优势，实现了 1.25 比特量化的理论效率，且仅需对现有低比特推理内核进行最小修改即可部署。

此外，原论文附录 C 指出：在不同 N:M 候选格式中，只有 3:4 能同时满足 SIMD 对齐、LUT 容量限制、安全稀疏阈值，并完美填满 16 项的 LUT。

三、Sherry 核心创新二：Arenas 退火残余突触

3.1 权重陷阱：稀疏三元训练的致命伤

尽管 3:4 结构化稀疏具备硬件和比特利用优势，但将其直接应用于三元量化往往导致模型性能显著下降。论文首次识别出这一问题的根本原因——权重陷阱。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能图 3 | LLaMA-1B 在不同量化方案下的权重分布对比。（左）朴素 3:4 稀疏三元训练存在权重陷阱问题，数值坍缩为类二元极化分布，与稠密模型相比存在显著精度差距；（右）Sherry 利用 Arenas 模块实现无陷阱分布，缩小了与稠密三元模型的性能差距。该图揭示了稀疏三元训练的核心瓶颈——权重陷阱。左图中，朴素的 3:4 稀疏约束导致权重集中于局部区域，呈现类二元分布，精度差距超过 4.5%，其本质是梯度同质化引发的表征坍缩。右图中，Sherry 通过 Arenas 模块注入异质梯度，打破了权重极化趋势，使分布更平滑，精度差距缩小至 0.1% 以下。这一对比验证了 Arenas 模块在维持表征多样性、解决权重陷阱问题上的关键作用。

如图 3 左所示，在硬性的 3:4 剪枝约束下，权重倾向于向特定值极化，最终分布模仿二值量化。这种坍缩阻止了模型利用三元集的表达容量，本质上使其陷入次优的类二值状态（见图 10 右上）。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能图 10 | 不同量化机制下的权重分布。Arenas 模块的引入有效缓解了二元和朴素三元量化中的陷阱现象。该图进一步验证了 Arenas 模块的泛化能力，覆盖了 1 比特二元训练和朴素三元训练两种场景。左上图显示 1 比特训练中权重集中于特定区间，精度仅 47.3%；右上图加入 Arenas 后，权重分布更分散，精度提升至 48.9%。左下图显示朴素三元训练存在“死区”陷阱，权重难以跨越零值边界；右下图显示 Arenas 模块通过异质梯度注入，使权重分布覆盖更广泛区间，同样实现了精度提升。这一结果证明，权重陷阱是低比特量化的共性问题，而 Arenas 模块通过打破梯度同质化，为不同量化场景提供了通用的陷阱缓解方案。

3.2 根源：梯度同质化

研究发现，这种性能停滞由梯度同质化驱动。在 3:4 稀疏配置中，零点在权重块内均匀分布，导致稀疏矩阵的行为类似于稠密的二值矩阵。这种均匀分布模仿了 Hadamard 变换的性质，使信号扁平化。因此，关于激活 A 的下游梯度变得日益同质化：

传递到前层的梯度变得无差异，迫使大多数权重在训练中表现出相似的行为，显著降低了表达的多样性。

作者采用有效秩（Effective Rank, ER）来量化梯度多样性。给定梯度矩阵 G，设其奇异值为 σ_i，归一化后得到概率分布 p_i，则有效秩定义为：

有效秩的取值范围为 1 到矩阵的秩 r。具体来说：
* 接近 1 表示梯度高度同质化，更新坍缩为单一主导方向；
* 接近 r 表示高秩、多样化的更新。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能图 4 | 训练过程中梯度的有效秩（ER）。二元和 3:4 稀疏三元训练均因梯度同质化导致有效秩相对较低。有效秩（ER）是衡量梯度多样性的核心指标，值越接近矩阵维度表示梯度信息越丰富。图中可见，二元训练和朴素 3:4 稀疏三元训练的 ER 均低于 750，远低于梯度矩阵 4096 的总维度，表明梯度同质化严重，模型学习自由度受限。而 Sherry 通过 Arenas 模块引入连续权重矩阵 W，使梯度中注入异质信息，有效提升了 ER 值，避免了谱坍缩。这一结果从梯度动力学层面解释了权重陷阱的成因，也验证了 Arenas 模块打破梯度同质化的有效性。

图 4 显示：3:4 稀疏训练的有效秩较低（ER < 750），尽管梯度矩阵总维度为 4096，但其光谱坍缩程度与二值量化相当，表明模型的学习自由度显著丧失。

原文附录 F 详述了有效秩的计算方法及其在梯度分析中的应用。下面引用附录部分的一张权重分布图示：

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能图 11 | 不同层的权重分布及其梯度的有效秩（ER）。该图聚焦于模型不同层（mlp.down_proj、self_attn.v_proj、self_attn.k_proj）的权重分布与梯度有效秩差异。朴素 3:4 稀疏三元模型的权重分布呈现明显极化特征，且各层梯度有效秩偏低，表明梯度信息匮乏，学习能力受限；而 Sherry 的权重分布更均匀平滑，梯度有效秩显著更高，尤其是在注意力层（self_attn.v_proj、self_attn.k_proj），有效秩提升更为明显。这一对比揭示了 Arenas 模块对不同层的普遍优化效果，证明其能在关键网络层维持梯度多样性，避免局部表征坍缩，为模型整体性能提升奠定基础。

3.3 Arenas：恢复表达多样性的创新机制

为恢复表达多样性，Sherry 提出了 Arenas——退火残余突触机制，通过一个连续的旁路将潜在权重幅度重新耦合到损失目标。

在训练阶段，三元线性层的输出增加了一个衰减的全精度残余突触 W：

Output = Q(X) + λ(t) * XW

其中 λ(t) 为调度系数，在训练结束时退火至零。这一设计使得全精度残余项在训练初期发挥作用，后期逐步消失，最终在推理阶段该项完全归零。潜在矩阵 W 被包含在前向传播中，从根本上改变了梯度动力学。关于潜在激活 X 的梯度变为：

∂L/∂X = ∂L/∂Q(X) * ∂Q(X)/∂X + λ(t) * ∂L/∂(XW) * W^T

该公式是在训练阶段引入全精度残差项后，对潜在激活的梯度推导结果。若无 Arenas 机制，3:4 稀疏三元训练的梯度为 ∂L/∂X，但 3:4 的硬稀疏约束会使三元权重矩阵 W^T 呈现类二值分布，导致梯度趋于同质化、有效秩极低。这使得前层网络只能接收无差别的更新信号，权重陷入类二值的权重陷阱，丧失三元量化的表征多样性。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 5 | Arenas 模块与量化感知训练（QAT）的整体架构。Arenas 模块通过带退火门的残差突触注入异质梯度。该图展示了 Sherry 的核心训练架构，将 Arenas 模块与 QAT 流程深度融合。前向传播中，除三元权重 W^T 的计算外，引入衰减的全精度残差项 λₜXW，其中 λₜ 通过退火调度逐渐趋近于 0；反向传播时，残差项使梯度 ∂L/∂X 包含异质信息，打破 3:4 稀疏结构导致的梯度同质化。这一设计既通过残差项吸收量化噪声、补偿修剪误差，又能在训练末期完全移除辅助路径，实现零推理开销，完美平衡了训练稳定性与部署效率。

Arenas 机制通过在反向传播中融入全精度潜在权重矩阵 W 的连续值信息，让梯度计算引入 W 的联合项，为 ∂L/∂X 注入异质梯度信息，直接打破了 3:4 结构诱导的梯度同质化效应。这种异质梯度让模型前层能获得特化的参数更新，为陷入类二值状态的权重提供了逃离的优化“能量”，使其恢复多元的分布特征，保住三元模型的表达能力。

公式中的 λₜ 是随训练进程余弦退火至 0 的调度系数，其作用在两个阶段有所不同：
* 训练初期：λₜ 值较大，全精度残差的作用显著，重点解决梯度同质化与权重陷阱问题。
* 训练后期：λₜ 逐渐趋近于 0，残差项的影响逐步消失。最终在推理阶段 λₜ=0，梯度公式回归纯三元量化形式，模型仅保留 3:4 稀疏的三元权重 W^T，无任何额外的推理计算与存储开销，完美兼顾了训练稳定性与推理轻量化。

3.4 Arenas 的三重优势

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 4 | 训练过程中梯度的有效秩（ER）。二元和 3:4 稀疏三元训练均因梯度同质化导致有效秩相对较低。

方差注入与奇异性打破：通过重新引入连续矩阵 W，Arenas 防止梯度坍缩为同质化、低秩状态，使前层获得特化更新（图 4 右）。
自适应误差补偿：训练期间，残余项 λₜXW 自然吸收 3:4 三元约束引入的量化噪声和剪枝误差。这使得网络在稀疏三元权重 W^T 逐步学习捕获信号最显著成分时，保持高精度内部表示，实现更优优化。
零开销推理：由于 λₜ 退火至零，推理时完全消除残余项，不增加任何计算或内存开销。

3.5 退火调度的影响

论文比较了 λₜ 的三种衰减调度：线性、余弦、指数，及其带 warmup 的变体。
* 线性：λₜ = 1 – t
* 余弦：λₜ = 0.5 * (1 + cos(πt))
* 指数：λₜ = exp(-5t)

其中 t 为训练进度（0 表示开始，1 表示完成）。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 7 | 退火因子 λₜ 的调度方案。图中展示了三种基础衰减策略（线性、余弦、指数）及其带预热的变体，横轴为 QAT 训练进度（0%-100%），纵轴为 λₜ 值（1.0-0.0）。线性策略保持恒定衰减速率，余弦策略在训练中期衰减更快，指数策略初期衰减迅速后趋于平缓。带预热的变体通过训练初期维持较高 λₜ，让模型先建立稳定表征再逐步强化稀疏约束，进一步提升性能。实验表明，余弦 + 预热调度为默认最优选择，既能通过残差项早期补偿量化误差，又能平稳过渡到纯稀疏三元模型，保障训练收敛与最终性能。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 8 | 不同 λₜ 调度对比。所有调度均优于无 Arenas 基线，且 warmup 可提升各调度性能。该图聚焦 λₜ 调度方案对模型精度的影响，对比了无 Arenas 模块的基线与三种衰减策略（线性、余弦、指数）及其带预热的版本。结果显示，所有带 Arenas 的方案均显著优于基线，证明梯度异质注入的核心价值；其中带预热的调度（尤其是余弦 + 预热）表现更优，原因是预热阶段让模型在残差项辅助下适应量化约束，避免早期训练震荡。这一结果表明，合理的 λₜ 调度与 Arenas 模块的协同作用，能进一步释放稀疏三元模型的性能潜力，为训练超参数优化提供了明确方向。

关键发现：无论采用何种调度，Arenas 均能稳健提升性能，证明了其有效性不依赖于特定衰减曲线。warmup 带来的增益可能源于：通过逐步引入残余，模型在退火影响达到峰值前建立稳定基础。

四、相关工作

4.1 LLM 量化

量化已成为提升 LLM 效率的基石技术，通过降低权重和激活的比特精度（Dettmers et al., 2021, 2022; Lin et al., 2023b; Frantar et al., 2022）。然而，流行的权重量化方法（Lin et al., 2023b; Frantar et al., 2022）通常需要混合精度矩阵乘法，权重和激活驻留在不同数据格式中，这种异质性需要专用硬件支持才能在边缘和移动平台上维持吞吐。

权重-激活量化策略（Dettmers et al., 2022; Xiao et al., 2023）寻求统一低精度格式，但常遭遇“异常值问题”，极端激活值导致高量化误差。因此，激活达到与权重相同的超低精度仍具有挑战性。

4.2 三元量化

三元量化（Li et al., 2016; Zhu et al., 2016）通过将权重约束为 {-α, 0, +α} 提供范式转变。除大幅内存减少外，该方法从根本上简化核心矩阵乘法为加法，有效消除功耗密集的乘法器（Ma et al., 2025; Wang et al., 2023）。

早期研究主要关注通过阈值和缩放优化量化函数。
* TWN（Li et al., 2016）通过假设高斯权重分布最小化重建失真；
* TTQ（Zhu et al., 2016）引入可学习缩放因子；
* Leng et al.（2018）利用 ADMM 迭代优化参数。

LLM 的出现重新激发了对三元方案的兴趣，导致两个不同研究轨迹。
* 第一个利用 PTQ 最小化量化计算成本（Lin et al., 2023b; Frantar et al., 2022），但在超低位宽下性能下降显著。因此，QAT 成为稳健性能恢复的首选。
* 在 QAT 格局中，策略从 BitNet 家族使用的直接 AbsMean 缩放（Ma et al., 2025; Wang et al., 2023）到 LSQ（Esser et al., 2019）的更复杂适应（Chen et al., 2024b; Liu et al., 2025）。

推理引擎方面，llama.cpp 等经典框架仍依赖基于乘法的内核，需要权重复原和浮点操作。
* 为克服此问题，T-Mac（Wei et al., 2025）和 TENET（Huang et al., 2025c）提出 LUT 引擎消除乘法，但需将三元权重建模进 2-bit 容器。
* BitNet.cpp（Wang et al., 2025b）尝试通过 1.67-bit 打包策略（3 权重 5 比特）进一步减小占用，但 3 路打包固有 SIMD 不友好，引入显著位混洗开销，常导致性能慢于 2-bit 打包。

Sherry 通过引入硬件对齐的 3:4 结构化稀疏，在 1.25-bit SIMD 友好打包中解决了这一困境。

4.3 N:M 稀疏

N:M 结构化稀疏（Lin et al., 2023a; Zhou et al., 2021）已成为无结构剪枝灵活性与块剪枝硬件效率之间的关键中间地带。通过强制每 M 个连续权重中恰好 N 个非零，该模式提供高度可预测的内存访问模式，非常适于硬件加速。值得注意的是，NVIDIA Ampere 及后续架构（Lin et al., 2023a）引入对 2:4 稀疏的原生 Tensor Core 支持，在高精度模型中吞吐加倍且精度损失最小。

现有 N:M 稀疏研究（Sun et al., 2021; Fu et al., 2023; Zhang et al., 2023）主要聚焦于最优掩码选择与通过专门训练恢复模型性能。然而，这些工作大多未与超低位宽量化协同设计，因其主要针对 GPU 上的稀疏张量核心优化，而此类硬件目前优先支持 16-bit 或 32-bit 浮点运算。

在超低位宽场景下，N:M 稀疏与三元量化的交叉领域仍基本处于空白。此外，随着量化位宽降低，刚性的 N:M 约束会加剧权重陷阱现象。Sherry 将 N:M 范式扩展，引入了硬件对齐的 3:4 稀疏模式，并与 Arenas 模块耦合，专门设计用于弥合稀疏三元模型与稠密三元模型之间的精度差距，且推理过程零额外开销。据我们所知， Sherry 是首个为超低位宽量化应用 N:M 稀疏提供硬件高效解决方案的工作。

五、实验评估

5.1 实验设置

数据集、模型与评估：

三元量化基线：Sherry 与两类主流三元量化方法进行比较：
* 静态方法：包括 TWN（Li et al., 2016）、Tequila（Huang et al., 2025a）、BitNet（Ma et al., 2025; Wang et al., 2023）和 Spectra（Kaushal et al., 2025）所使用的 AbsMedian/AbsMean 策略。
* 可学习方法：如 DLT（Chen et al., 2024b）、LSQ（Esser et al., 2019）、ParetoQ（Liu et al., 2025）所使用的 SEQ 策略。

实现细节：实验在 32 张 NVIDIA GPU 上进行训练，并在 Intel 8263C CPU 上评估推理吞吐量以验证边缘效率。对 Transformer 架构中的所有线性层进行量化，序列长度为 1024。学习率固定，退火系数默认采用带 warmup 的余弦衰减调度器。

5.2 性能评估

5.2.1 三元量化方法对比

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能

表 1 | 不同三元量化方法下 Sherry 的性能对比。 本表格对比了 Sherry 与各类三元量化方法在 LLaMA-3.2-1B 和 3B 模型上的性能表现，评测基于五个零样本基准任务（ARC-e、ARC-c、HelS、PIQA、WinG）。最优结果标为紫色，次优结果标为蓝色，半精度（BF16）结果以灰色展示作为参考，所有实验结果均为三次独立随机种子实验的平均值。

如表 1 所示，Sherry 在 1B 和 3B 模型尺度上均与当前 SOTA 方法 Tequila 性能相当，尽管采用了显著更低的 1.25 位宽。在 1B 模型上，Sherry 与 SOTA 方法的平均准确率完全匹配（均为 0.519），在降低 25% 位宽的同时与 1.67-bit 基线持平。值得注意的是，在 ARC-Challenge 等推理密集型基准上，Sherry 甚至超越了 Tequila，将性能差距缩小至与全精度 BF16 基线不到 0.5%。

这些结果证明：3:4 结构化稀疏保持了模型的高层语言能力，而 Arenas 模块成功解决了优化陷阱问题。 这种协同作用使得高效的打包策略成为可能，同时确保了卓越的硬件对齐性和有竞争力的模型质量。

5.2.2 三元 LLM 对比

为进一步评估 Sherry 的有效性，将所得模型命名为 SherryLLM，并与现有基于 LLaMA 架构的三元大模型进行比较。为公平对比，我们复现了具有可用训练代码的方法（Liu et al., 2025; Chen et al., 2024b），在 UltraFineWeb 数据集的 10B tokens 上使用相同超参数进行训练，同时报告其他方法的原始发表结果。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能

表 2 | 基于 LLaMA 的三元大模型中 SherryLLM 的性能对比。 本表格对比了 SherryLLM 与多款基于 LLaMA 架构的三元大模型在不同模型尺度下的性能。标注∗的结果为本文复现所得，其余为原文献公布结果。最优与次优结果分别以紫色、蓝色标注，BF16 半精度结果作参考用灰色展示，所有数据均经三次独立实验取平均。

如表 2 所示，SherryLLM 在 1B 和 3B 尺度上，尽管位宽显著降低至 1.25 比特，仍取得了至少第二优的平均准确率。这些结果证实：3:4 结构化稀疏与 Arenas 模块的集成有效保持了模型表达能力，使 SherryLLM 在保持竞争性性能的同时实现了 25% 的位宽降低。

5.2.3 量化粒度影响

量化粒度涉及硬件效率与表示精度间的关键权衡。
* 粗粒度（如逐张量） 量化能最大化硬件加速潜力，但常引入显著误差。
* 细粒度（如逐组） 策略通过增加缩放因子内存开销来缓解此问题。

作者在五个基准上评估了 Sherry 在逐张量、逐通道、逐组（组大小 128）三种粒度下的性能。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能

表 3 | Sherry 在不同量化粒度下的平均精度。 本表格展示了 Sherry 在张量级、通道级和分组级（分组大小 128）三种不同量化粒度下，在五大基准任务上的平均准确率及标准差。

表 3 显示，Sherry 在所有量化粒度下均保持了稳健的性能，退化最小。 这种 稳定性主要由 Arenas 模块驱动，该模块提供了连续的梯度流，使潜在权重能够适应不同的缩放约束。

5.2.4 Arenas 有效性

为验证训练框架的有效性，在三种量化方案上进行了消融实验：二值（1-bit）、3:4结构化稀疏（1.25-bit）和纯三元AbsMean（1.67-bit）。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 6 | Arenas模块的消融实验结果。在1-bit、1.25-bit和1.67-bit三种配置下，引入Arenas模块均带来了一致的性能提升，验证了其普适有效性。

如图6所示，集成Arenas模块在所有配置中都带来了稳定的性能改进。 值得注意的是，所有方案均表现出显著增益，这归因于Arenas有效缓解了1-bit和1.67-bit方案中存在的权重陷阱问题。

5.2.5 推理效率

为实证验证Sherry的效率，在BitNet.cpp框架内采用逐通道量化，并在Intel i7-14700HX CPU上评估了令牌生成速度。对比基线包括1.67-bit（TL2）、2-bit（I2_S）以及BF16精度。Sherry与所有基线均遵循BitNet.cpp范式。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
表 4 | Intel i7-14700HX处理器上的推理效率对比。本表格展示了0.7B和3B模型尺度下，不同量化方法的推理效率（以每秒生成token数衡量，越高越好）和模型体积（越低越好）。基准方法包括BF16、2.0-bit I2_S和1.67-bit TL2。实验结果显示，Sherry在1.25-bit下实现了速度与体积的双重优化：0.7B模型达到148.27 token/s，较1.67-bit TL2提升27%；3B模型达到45.55 token/s，提升18%。同时，其模型体积较2.0-bit和1.67-bit基线进一步降低。核心原因在于3:4稀疏结构适配的5-bit打包方案与SIMD向量车道对齐，消除了非2的幂次打包带来的位混洗开销，从而大幅提升了硬件利用率。

表4结果显示，Sherry的性能优于1.67-bit和2-bit变体。 具体而言，对于3B模型，Sherry比1.67-bit基线快18%（45.55 vs 38.80 token/s），模型大小从846MB降至712MB（减少16%）。此改进归因于3:4结构化稀疏与硬件对齐的5-bit打包方案，最大化利用了SIMD向量，消除了非2的幂次打包固有的位混洗开销。

5.2.6 调度影响

为评估退火过程的敏感性，比较了退火门控的三种衰减调度方式：线性、指数、余弦，以及它们各自结合warmup的变体。

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能
图 8 | 不同调度策略对比。所有调度方案均优于未使用Arenas的基线，且引入warmup可进一步提升各调度方案的性能。

如图8所示，每种调度方案均一致优于无Arenas的基线，证明无论具体的衰减曲线如何，Arenas机制都稳健有效。 值得注意的是，warmup的引入为所有调度都带来了性能提升。这归因于warmup阶段早期的优化动力学：通过逐步引入残余连接，模型在退火影响达到峰值前建立了一个更稳定的基础。

六、讨论与局限性

尽管Sherry在推进LLM边缘部署效率方面取得了进展，但仍存在一些局限性，为未来研究指明了方向：

七、结论

Sherry通过以下贡献，解决了三元量化中位宽与推理速度的权衡问题：

3:4结构化稀疏：实现了1.25-bit硬件对齐打包，消除了非2的幂次打包方案的位混洗开销。
Sparse-AbsMean最优求解：证明并实现了3:4稀疏三元格式的最优构造方法。
Arenas退火残余突触：识别并解决了权重陷阱问题，通过退火梯度注入恢复了模型的表达多样性。
全面实证验证：在LLaMA-3.2模型上达到了SOTA性能，同时降低了25%位宽并提升了10%的推理速度。

Sherry为在边缘设备上高效部署LLM提供了新的范式。代码已开源：https://github.com/Tencent/AngelSlim

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/21712

腾讯开源Sherry三元量化方案：1.25bit登顶LLM边缘推理，3:4稀疏榨干硬件性能

关键问题

问题一、3:4稀疏模式的最优性是否具有普适性？

问题二、Arenas 的训练开销是否值得？

一、背景与问题定义

1.1 三元量化的数学形式

1.2 量化感知训练

1.3 核心挑战再审视

二、Sherry 核心创新一：3:4 稀疏三元量化

2.1 N:M 结构化稀疏

2.2 最优求解：Sparse-AbsMean 策略

2.3 3:4 格式的最优性证明

甜点1：SIMD 友好对齐

甜点2：安全稀疏余量

甜点3：最优比特状态利用

甜点4：LUT 推理兼容性

三、Sherry 核心创新二：Arenas 退火残余突触

3.1 权重陷阱：稀疏三元训练的致命伤

3.2 根源：梯度同质化

3.3 Arenas：恢复表达多样性的创新机制

3.4 Arenas 的三重优势

3.5 退火调度的影响

四、相关工作

4.1 LLM 量化

4.2 三元量化

4.3 N:M 稀疏

五、实验评估

5.1 实验设置

5.2 性能评估

5.2.1 三元量化方法对比

5.2.2 三元 LLM 对比

5.2.3 量化粒度影响

5.2.4 Arenas 有效性

5.2.5 推理效率

5.2.6 调度影响

六、讨论与局限性

七、结论

相关推荐

开源多模态推理新突破：MMFineReason框架以4B参数逆袭30B模型，开启数据驱动的高效推理时代

FastDriveVLA：专为自动驾驶VLA模型定制的视觉token剪枝方法，实现高效端到端驾驶

解耦推理：从实验室概念到行业标准，DistServe如何重塑AI推理架构

Mirage Persistent Kernel：突破LLM推理极限，自动巨核化技术实现1.7倍性能飞跃

Unsloth革命：手机端大模型部署实战，40-50 token/s流畅体验揭秘