T-MAN：NPU大模型推理的革命性方案，解码速度提升3.1倍，能效比领先84%

关键词：T-MAN、查找表 、 低比特量化 、NPU 推理 、端到端优化

当大模型遇上手机 NPU，推理速度反而比 CPU 还慢？USTC、微软研究院、清华等研究团队提出统一查找表方案 ，同时解决速度、能耗与精度三大难题。

近年来，大语言模型（LLM）正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gemini Nano，还是微软 Windows Copilot 中的 Phi-Silica，这些模型都依赖低比特量化 （如 2-bit、4-bit 权重）来降低内存占用，以适应设备的严格资源限制。

与此同时，设备的 SoC 芯片中普遍集成了神经处理单元 （NPU），专门用于高效执行 AI 推理任务。例如，高通 Snapdragon X Elite NPU 的峰值算力高达 45 TOPS，是其 CPU 算力的 150 倍。

然而一个看似矛盾的现象出现了：在 NPU 上运行低比特 LLM 推理，解码阶段的速度居然比在 CPU 上还慢 。这是为何？又该如何解决？

一、问题根源：NPU 的“特长”与“短板”

NPU 是为密集的矩阵乘法 （GEMM）而生的专用硬件，尤其在 Int8 等特定数值格式和量化粒度下性能极佳。但它的高效是以灵活性 为代价的——它不擅长执行除 GEMM 之外的其他操作，例如反量化 。

反量化是将低比特权重转换回高精度格式以匹配硬件支持格式的必要步骤。然而，这个操作本质上是逐元素的浮点运算， 恰恰是 NPU 的弱项， NPU 的硬件设计并未对此类操作模式进行优化。

图 3 | 典型 NPU 架构（以骁龙 8 NPU 为例）。其集成了矩阵核心（HMX）、向量核心（HVX）、标量单元以及片上内存（TCM）。骁龙 8 NPU 的 HMX 矩阵核支持 32×32 tile 运算，HVX 向量核支持 1×256 tile 运算，8MB TCM 具备高带宽（2KB 突发传输），这种架构为 T-MAN 的 “DMA – 向量 – 矩阵” 三级流水线设计提供了硬件层面的并行能力

当前的主流解决方案都存在明显缺陷：

方法一：量化格式对齐硬件
强制 LLM 使用 NPU 原生支持的量化格式（如逐通道 Int4）， 避免了反量化，但导致模型精度显著下降 。论文评估显示，这种做法会使困惑度（PPL）恶化 1.45 倍。
方法二：NPU+CPU 混合执行
让 GEMM 密集的预填充阶段 在 NPU 上执行，而内存密集的 解码阶段回退到 CPU 。这虽然保住了精度和部分速度，但 带来了高昂的能耗开销 ——CPU 解码的能耗比 NPU 高出 79%，且会抢占设备上其他应用的资源。

由此可见，在 NPU 上实现既快又省电、还不失精度 的端到端 LLM 推理，仍是一个悬而未决的挑战。

表 2 | 一加12上的内存带宽微基准测试。(1) 向量加载（Vectorized Load）在将数据加载到向量寄存器之前，会先将数据隐式缓存到 L2 缓存中；(2) L2 预取通过 l2fetch 指令将数据显式调入 L2 缓存；(3) DMA 则将数据从 DDR 直接异步传输到 NPU 的 TCM 。该表是在 OnePlus 12 Pro 上开展的内存带宽微基准测试结果，用于筛选 T-MAN 中高效的数据传输方式。测试显示，向量加载因高内存延迟引发严重流水线停顿，带宽最低；L2 预取带宽居中；而 DMA 因无需缓存中间环节、直接异步传输，不仅带宽最高（达 59GB/s）且稳定性强，这为 T-MAN 选择 DMA 加载模型权重、结合软件流水线隐藏内存延迟提供了关键数据支撑

二、核心洞察：低比特空间小，查表代替计算

研究团队发现了一个关键突破口：低比特量化极大地缩小了数值的取值范围 。例如，4-bit 整数只有 16 种可能的取值。这意味着，许多原本需要计算的操作， 其所有可能的结果都可以被预先计算好，并存储在一张小小的查找表中。

基于此，论文提出 T-MAN 框架，其核心思想是：用查找表机制来替代 NPU 不擅长的硬件操作 ，从而统一支持多样的低比特量化格式，并消除运行时反量化的开销。

图 1 | T-MAN 与现有方案对比。为保证精度，现有方案将解码阶段卸载到 CPU，并分别为 NPU 和 CPU 存储两份权重；T-MAN 借助查表技术，实现预填充（Prefill）和解码（Decoding）均在 NPU 上执行，且仅需保留一份权重。现有方案因跨硬件执行存在能耗高、内存占用大的问题，T-MAN 的统一权重设计不仅减少 50% 权重存储开销，还避免了 NPU 与 CPU 间的数据交互延迟，为端到端低比特推理奠定基础

T-MAN 与当前方案的对比：T-MAN 利用查找表在 NPU 上同时支持预填充和解码，只需一份权重副本；而当前方案为保精度，需将解码卸载到 CPU，并存储 NPU 和 CPU 两份权重。

然而，将查找表直接应用于 NPU 面临两大冲突：

数据布局冲突
预填充阶段需将低比特权重反量化为硬件专用格式，需要比特并行的数据布局；而解码阶段为控制表大小，需要比特串行布局。简单支持两者会使片上存储翻倍。
切片策略冲突
用于预填充的矩阵核心和用于解码的向量核心，具有不同的指令宽度和计算模式，导致循环顺序和切片大小不匹配，阻碍跨阶段的连续存储访问。

表1：VLUT16与VLUT32的吞吐量比较。VLUT（向量查找表）指令包含两种变体：VLUT16 使用含 16 个条目、每个条目 16 位的查找表，VLUT32 使用含 32 个条目、每个条目 8 位的查找表。两种指令均以 8 位数值作为表的索引。测试对比了两种指令在不同激活位宽下的吞吐量（以等效乘加操作数衡量）。结果显示，无论激活位宽为 8 位还是 16 位，VLUT16 的等效乘加操作数均高于 VLUT32（例如，8 位激活时 VLUT16 等效 1024 次 MADDs，VLUT32 仅 640 次）。这一结果印证了 VLUT16 更适配 T-MAN 的 LUT-based 解码需求，因此被选为最终实现方案。

三、核心创新：两级查表与统一切片

面对上述冲突，T-MAN 提出了两项关键技术。

3.1 创新一：融合两级查找表反量化

为了统一比特并行和比特串行布局，T-MAN 设计了两级查找表，将繁琐的位操作和浮点转换融合为高效的查表操作。

图 7：融合两级查表反量化（以 4 位量化权重为例）。第一级查表完成位重排（如将 4 个 INT4 权重的某一位打包值 0b0011 转为位并行的 0b0000000010001000），替代 12 次位操作；第二级查表预存整数转浮点及量化参数（尺度 scale、零点 zero point），使反量化速度比 NPU 原生浮点操作快 10.2 倍。

上图以 4-bit 量化权重为例，通过两级查找表高效完成比特重排、整型转浮点、以及应用缩放因子和零点的操作。

比特重排：将一组比特串行数据（如 4 个权重的第 i 个比特）直接作为索引，查表得到预计算好的比特并行表示。一次查表可替代多达 12 次移位和与操作。
整型转浮点：利用低比特取值有限的特性，将所有可能的整数值对应的浮点结果预计算并存于表中。
融合缩放与零点：将反量化中的仿射变换（值 = (量化值 - 零点) * 缩放因子）直接“烘焙”到查找表的条目中。对于块大小为 64 的 Int2 量化，这能将所需浮点操作减少至原来的 1/16。

3.2 创新二：并发层次引导的统一切片策略

为了解决预填充和解码之间截然不同的切片需求，T-MAN 首先抽象出 NPU 的三级并发层次模型：

流水线级：DMA、向量核心、矩阵核心并发执行。
线程级：多个线程在向量核心上并行处理数据，为矩阵核心做准备。
SIMD 级：数据被加载到向量或矩阵寄存器中进行 SIMD 计算。

基于此，T-MAN 通过数学约束定义了一个统一的切片搜索空间，确保一份权重布局能同时满足两种计算模式对内存访问的要求。

图 8：线程级分块（Tiling）与循环顺序。预填充分块适配矩阵核（参数如 M_tile, N_tile），解码分块适配向量核（参数如 V_tile, K_tile）；T-MAN 通过约束（如 M_tile = V_tile）实现统一分块，避免数据重排开销，保障内存连续访问效率。

上图表示了线程级切片与循环顺序，展示了预填充与解码阶段不同的线程级切片维度和循环顺序。T-MAN 通过约束搜索找到统一的切片策略。

统一切片的核心约束公式

其中，MemFootprint 是切片的内存占用量。上述公式确保了寄存器容量、切片维度匹配以及片上内存容量不超限。

四、系统实现：流水线掩盖延迟，巧用片上内存

4.1 预填充：三阶段流水线

为了掩盖反量化的延迟，T-MAN 为预填充阶段设计了 DMA-向量-矩阵三阶段流水线：

图 9：DMA 传输、向量核反量化与矩阵核乘法的流水线（用于隐藏内存访问和反量化延迟）。该三级流水线并行执行——DMA 从 DDR 将量化权重传入 TCM、向量核对 TCM 中权重查表反量化、矩阵核对反量化后数据做 GEMM，使整体速度比串行执行快 1.5 倍，且仅比纯矩阵计算多 10% 开销，有效隐藏延迟。

上图展示了 DMA-向量-矩阵三阶段流水线的三阶段重叠执行：DMA 搬运下一块权重，向量核心反量化当前块，矩阵核心计算上一块，最大化硬件利用率。

4.2 解码：基于查找表的向量化映射

解码阶段完全在 NPU 的向量核心上执行基于查找表的 GEMV。T-MAN 的创新在于两级切片策略和软件管理的寄存器溢出缓冲区。

两级切片：内层切片与量化块对齐，进行低精度累加；外层切片尽可能多地容纳查找表，以最大化数据复用。
TCM 溢出缓冲区：当外层切片所需的浮点累加器数量超过硬件寄存器容量时，传统的编译器会将数据溢出到慢速的 L2 缓存。T-MAN 则在快速的片上内存（TCM）中开辟了一个软件管理的缓冲区，作为寄存器的扩展，高效管理中间结果，避免性能断崖。

图 10：NPU 上的查表解码内存层级映射。T-MAN 将输入激活和大部分中间结果存储在高带宽的 TCM 中，标量值存入 L2 缓存，同时用 TCM 作为寄存器溢出缓冲区（替代低带宽 L2 缓存），避免中间结果频繁写入 DDR，适配 NPU 内存层级特性以提升解码效率。

上图是 LUT 解码在 NPU 内存层次上的映射，TCM 存储输入激活和大部分中间结果，L2 缓存保留给标量值，基于 TCM 的溢出缓冲区管理聚合结果。

五、性能评估：全面领先，能效突出

团队在搭载高通骁龙 8 Gen 3 和 8 Elite 的手机上，对 Qwen3-8B、Llama-3.1-8B 和 BitNet-2B 等模型进行了全面评估。

表3：骁龙8 Gen3处理器上BitNet-2B模型的功耗与能效对比。从数据看，T-MAN（W_INT2/A_INT16）预填充功耗5.01W、每token能耗0.0080J，比llm.npu（W_INT8/A_INT8，8.89W/0.0269J）低45%/70%；解码4.91W/0.101J，比bitnet.cpp（纯CPU，8.22W/0.490J）节能79%/79%。因其全NPU执行，消除了CPU协同的能耗开销，且速度提升进一步降低了单位token能耗。

5.1 速度更快

解码阶段：相比当前最优的 NPU 方案（QNN），T-MAN 获得 1.5-1.8 倍加速；相比混合方案（llm.npu），获得 3.1-3.8 倍加速。
预填充阶段：相比 llm.npu，获得 1.4 倍加速；与 QNN 的全精度内核性能相当。

图12：mpGEMV内核的性能基准测试。T-MAN、llama.cpp和T-MAC采用按块量化，不过BitNet内核（形状为{2560,6912}×{2560,6912}）除外，它们采用按张量量化。QNN采用按通道量化进行评估。

上图展示了 mpGEMV 内核性能对比，可以看出 T-MAN 的解码内核在不同模型和比特宽度下均显著优于或持平于其他方案。

图 17 | 骁龙 8 Gen3 处理器上，4096×4096×128 大小、权重为 INT4 精度的 GEMM 在顺序执行与流水线执行下的对比。图中显示顺序执行（DMA 加载→反量化→矩阵乘法依次进行）延迟为 0.813ms，而流水线执行（三阶段并行）延迟仅为 0.524ms，实现了 1.55 倍的加速。该流水线通过让 DMA 传输权重、向量核反量化、矩阵核计算同步推进，有效隐藏了内存访问与反量化操作的延迟，且其开销仅比纯矩阵计算多 10%，为预填充阶段高效利用 NPU 硬件奠定了基础。

图 16 | 骁龙 8 Gen 3 处理器上，不同全精度权重制备方法的延迟对比。注：Load-Full 指直接从内存加载预转换的全精度权重；Convert-DQ 指使用 NPU 标准浮点操作进行反量化；LUT-Dequant 指 T-MAN 提出的基于查表的反量化方法，包含 INT2 和 INT4 两种权重精度场景。该图清晰展现了 T-MAN 的 LUT-Dequant 方法的优势：针对 4096×4096、4096×12288 两种常见权重尺寸，其对 INT2 权重的反量化延迟远低于 Convert-DQ（依赖 NPU 低效的浮点转换）和 Load-Full（占用 DDR 带宽），分别实现了 10.2 倍和 4.9 倍的提速。其核心原因是通过查表复用预计算结果，并将量化权重存入高带宽的片上 TCM，从而大幅减少了内存传输开销。

5.2 能效显著降低

由于完全在高效的 NPU 上执行，T-MAN 的功耗大幅下降。

表 3 | BitNet-2B 在骁龙 8 Gen3 上的功耗与能效对比

T-MAN 相比纯 CPU 方案，能耗降低高达 24.5 倍（预填充）和 4.9 倍（解码）；相比混合方案，总能耗节省 71%（预填充）和 84%（解码）。

5.3 精度更高

T-MAN 支持更精细的逐块量化，相比 QNN 仅支持的逐通道/逐张量量化，精度优势明显。

表 4 | WikiText2 数据集上的困惑度（PPL）对比。注：T-MAN 采用每块（per-block）INT2 量化，QNN 采用每通道（per-channel）INT4 量化；困惑度越低，模型精度越高。T-MAN 的 INT2 每块量化使 Llama-3.1-8B 困惑度降至 12.81（QNN INT4 每通道为 18.62），Qwen3-8B 降至 13.14（QNN 为 25.37），在比特数更低的情况下仍实现了 48.2%~31.7% 的困惑度降低，解决了硬件格式匹配导致的精度损失问题。

从上表可以看到，在 WikiText2 数据集上的困惑度对比（值越低越好），即使使用更低的 2-bit 权重，T-MAN 的困惑度也显著低于使用 4-bit 权重的 QNN，在 Qwen 和 Llama 上分别降低了 48.2% 和 31.7%。

六、相关技术与未来展望

T-MAN 的思想与一系列利用查找表进行低比特推理的工作一脉相承，如面向 CPU 的 T-MAC 和面向 GPU 的 LUT-GEMM。同时，它也呼应了利用异构系统（如 NPU+CPU、NPU+PIM）来优化 LLM 推理的趋势。

然而，T-MAN 首次在移动端 NPU 上实现了端到端的高效推理，在速度、能耗和精度上实现了三重突破。当然，T-MAN 仍有其局限：

例如受限于 NPU 上高效注意力核的缺失，长上下文处理仍是瓶颈；
其设计虽然原理上可推广，但 移植到苹果等封闭系统的 NPU 仍面临挑战。

随着 NPU 硬件指令集逐步向开发者开放，以及查找表与张量核心的软硬协同设计成为可能，未来基于查找表的低比特推理范式，有望在更多硬件平台上释放出更大潜力。

七、总结

T-MAN 通过 “以查代算” 的核心思路，巧妙绕过了 NPU 在非 GEMM 操作上的性能短板。

其创新的两级查找表和统一切片策略，成功化解了预填充与解码在 NPU 上的固有冲突，最终在主流移动设备上实现了：

✅ 端到端 NPU 执行
✅ 预填充 1.4 倍、解码 3.1 倍加速
✅ 高达 84% 的解码能耗节省
✅ 更优的量化精度

这项工作不仅为手机、PC 等设备上的大模型部署提供了新的高效解决方案，也为专用 AI 硬件如何更好地适应快速演进的算法需求，提供了宝贵的协同设计范例。

论文代码已开源：https://github.com/microsoft/TMAC/tree/main/t-man

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18071