关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速
无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。
近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入提示,并初始化 KV 缓存的环节——计算负担最为沉重。 据统计,这一阶段常常占据整体推理时间的 70% 以上。在 CPU、消费级 GPU 以及各类边缘设备上,由于计算和内存资源有限,这一问题更为突出。
为缓解长序列带来的压力,业界普遍采用分块预填充技术:将输入序列切分成较小的块,逐块处理。虽然这种方法改善了任务调度与内存利用,但由于 Transformer 注意力机制具有二次复杂度,其计算开销依然巨大。
而现有的加速方案,主要是稀疏注意力方法,又分为两大方向:
* 基于固定模式的稀疏化:通常依赖特定硬件内核,移植性差。
* 基于查询的动态选择:在单查询生成时有效,但在预填充阶段面对多个查询同时处理时,性能会明显下降。

表 4 | 各类稀疏注意力方法的运行时复杂度与内存复杂度对比。该表从理论层面量化 QUOKA 的效率优势,其以(键值头数)替代其他方法的(查询头数),大幅降低计算与内存开销,渐近复杂度显著优于 SampleAttention、Loki 等方法,为硬件无关的高效部署提供理论支撑。
那么,有没有一种方法,既能显著降低计算量,又能保持模型精度,还能轻松部署在不同硬件上呢?

* QUOKA: QUERY-ORIENTED KV SELECTION FOR EFFICIENT LLM PREFILL
* Query-oriented KV selection for efficient Attention
* https://arxiv.org/pdf/2602.08722
Qualcomm AI Research 提出了一种面向查询的 KV 选择稀疏注意力算法 QUOKA,专为大语言模型(LLM)分块预填充推理加速设计。该方法 无需训练、硬件无关,通过挖掘查询与键的几何特征实现亚二次复杂度的注意力计算,旨在有效解决 LLM 预填充阶段的高延迟瓶颈。
现有稀疏注意力方法或依赖定制内核导致移植性差,或在多查询预填充场景下性能大幅下降,而分块预填充因注意力的二次复杂度仍存在高计算成本。

图 1 | QUOKA 分块预填充概览。(a)基于 QUOKA 的分块预填充:含 6 个标记的提示词被划分为 3 个各含 2 个标记的块,每个块经 QUOKA 子选键值缓存后,将精简缓存输入稠密注意力核;(b)基于 QUOKA 的键值选择:先通过余弦 dissimilarity 筛选查询,再利用查询-键余弦相似度筛选键。该图直观呈现 QUOKA 核心流程,分块预填充适配长输入场景,键值选择通过双重余弦相似度计算,既保证相关性又精简数据,解决传统分块预填充中注意力计算的二次复杂度问题,为后续效率提升奠定基础。
QUOKA 基于一个核心发现——与平均查询余弦相似度低的查询会与更多键产生强交互,并据此设计了查询子选择、余弦相似度评分、组感知聚合三步策略。该方法保留高信息度查询,通过余弦相似度衡量查询-键相关性,结合最大聚合与平均聚合分别保留关键交互、适配 GQA 架构,且仅采用标准线性代数操作,兼容主流密集注意力内核。
实验在 Needle-In-A-Haystack、LongBench 等多类长上下文基准测试中验证:
* 精度保持:QUOKA 减少 88% 的 KV 对使用,精度接近稠密注意力,显著优于现有稀疏方法。
* 显著加速:在英伟达 GPU 上实现 5 倍注意力提速、3 倍首 Token 时间降低;在英特尔 Xeon CPU 上提速近 7 倍。
* 强泛化性:在 Llama3、Qwen3 等 多模型及 MoE、GQA 架构中均表现良好,超参数鲁棒性强,且可适配生成阶段。在 Math500 推理任务中,其表现优于生成专用稀疏方法。
QUOKA 为资源受限环境下的 LLM 推理加速提供了高效方案。未来,可通过挖掘通道稀疏性进一步优化计算效率。
关键问题
问题一:关于 QUOKA 方法的核心假设与泛化能力
论文中指出,QUOKA 方法的有效性建立在一个关键观察上:“与平均查询余弦相似度较低的查询与更多键交互更强,对最终注意力得分的贡献更大”。这一观察在 Llama 等模型上得到了验证,但这是否普遍适用于所有 LLM 架构(如 MoE、非 Transformer 结构)和所有类型的输入(如代码、数学推理、多模态输入)?如果某些模型或任务中查询分布不符合这一几何特性,QUOKA 是否会失效? 论文中未对不同注意力头、层数或模型规模的敏感性进行系统分析,这是否意味着 QUOKA 的“硬件无关性”优势是以牺牲结构适应性为代价?
核心假设有效,但泛化性有边界,已在多种架构中得到验证。
QUOKA 的核心观察——即与平均查询余弦相似度低的“离群查询”主导注意力——源于对现代LLM注意力几何特性的实证分析,如图2所示。

图 2 | 来自 Llama 3.2-3B-Instruct 模型第 0 层第 11 个注意力头的实证观察:(a)注意力图 A;(b)查询(Q)和键(K)的主成分分析可视化,显示 Sq 值越高的查询越靠近键簇;(c)Sq 与 maxₖ(A) 的散点图,表明 Sq 值越高的查询与键的交互越强。该图验证了 QUOKA 的核心观察,Sq 值成为筛选关键查询的重要指标,高 Sq 查询的强交互特性使其能替代冗余查询,为查询子选步骤提供了实证支撑,确保精简后仍能保留核心注意力信息。
该观察在 Llama、Qwen、GPT-OSS 等多个主流“仅解码器”模型家族上得到验证。论文明确指出,该方法在 RoPE/NoPE 位置编码、MoE 架构以及分组查询注意力(GQA)上均表现良好,这为其“跨架构泛化”的主张提供了直接证据。这表明该【几何特性】很可能是现代密集或 MoE 型 Transformer 注意力机制中的一个普遍涌现现象,而非单一模型的巧合。
然而,这种泛化能力存在明确边界。作者承认,其方法依赖于注意力矩阵固有的稀疏性,并主要针对解码器架构的文本模型进行优化。 对于完全不同的架构如纯编码器或非 Transformer 模型,或对于注意力模式可能截然不同的输入模态,如图像、音频,该假设是否成立未经检验。此外,论文未系统分析不同注意力头之间这一特性的异质性。虽然“分组感知聚合”处理了 GQA,但不同层、不同头对“离群查询”的依赖程度可能不同,统一的子选择策略可能并非所有头的最优解。因此,QUOKA 的“硬件无关性”优势确实建立在当前主流文本 LLM 共享的注意力几何先验之上, 对于超出此范围的模型,其有效性需重新评估。
问题二:关于 QUOKA 在实际部署中的真实效率与系统开销
作者宣称 QUOKA 在多种硬件(GPU、CPU)上实现了显著的加速比(最高 7 倍),且“无需训练、兼容标准线性代数库”。然而,QUOKA 在每次块处理中都需要执行查询选择、余弦相似度计算、聚合 等额外步骤,这些步骤虽然时间复杂度较低,但在实际系统中可能引入不可忽略的内存访问开销、分支预测代价与线程同步延迟。尤其是在边缘设备或低带宽环境下,这些额外操作是否真的能带来端到端的延迟降低?论文中缺少与真实系统中其他优化技术(如 FlashAttention、KV Cache 压缩)的协同效果分析 ,这是否意味着 QUOKA 在系统集成中可能面临“隐藏成本”?
额外开销可控,实测带来净加速,但与系统级优化的协同仍是开放问题。

表 4 | 各类稀疏注意力方法的运行时复杂度与内存复杂度对比。该表从理论层面量化QUOKA的效率优势,其以(键值头数)替代其他方法的(查询头数,),大幅降低计算与内存开销,渐近复杂度显著优于SampleAttention、Loki等方法,为硬件无关的高效部署提供理论支撑。
QUOKA 确实引入了查询选择、归一化和余弦相似度计算等额外步骤。 然而,论文通过算法设计和复杂度分析(表 4)证明,这些操作的开销是次线性的,且核心是轻量级的向量操作(余弦相似度),完全由标准 BLAS 库支持,避免了定制内核的启动和同步开销。其复杂度关键依赖于 KV 头的数量 ,而非通常更大的查询头数量 ,这得益于其“预聚合”设计,从理论上节省了计算和内存。

图 5 | 使用 B_CP=128 时,不同硬件上注意力和首次标记生成时间(TTFT)相对稠密注意力基准的加速比:(a)NVIDIA A100 GPU 上的注意力延迟;(b)NVIDIA A100 GPU 上的 TTFT;(c)Intel Xeon W-2125 CPU 上的注意力延迟;(d)NVIDIA RTX 2080 GPU 上的注意力延迟。该图量化了 QUOKA 的硬件适配性和效率优势,在企业级 GPU、消费级 GPU 和 CPU 上均实现显著加速,其中 CPU 上最高近 7 倍加速,TTFT 降低 3 倍,证明其硬件无关特性,可广泛部署于各类设备。

图 6 | 在 NVIDIA A100 GPU 上,独立注意力模块和端到端模型(Qwen3-4B)的解码步骤增加时,相对稠密注意力的加速比(基于 100 次试验的平均时间):(a)解码阶段的注意力延迟;(b)解码阶段的端到端延迟。实验延伸至生成阶段,显示 QUOKA 在解码步骤增加时仍保持稳定加速,突破了稀疏注意力多适用于预填充的局限,其高效的键值选择策略在生成式任务中同样有效,进一步拓宽了应用场景。
更重要的是,实证数据支持其端到端效率。图 5 和图 6 显示,在 A100 GPU、RTX 2080 乃至 Intel Xeon CPU 上,QUOKA 在模块级(注意力)和端到端(TTFT) 均实现了显著的净加速——最高 5-7 倍。这说明,通过大幅减少送入昂贵稠密注意力内核的 KV 对数量(减少 88%),所节省的二次方计算与内存带宽成本, 远超过线性预处理的开销。尤其是在内存带宽受限的 CPU 和消费级 GPU 上,减少数据搬运带来的收益更为突出。
但是,论文确实未深入探讨与最底层系统优化的深度集成。例如:
* QUOKA 筛选后的 KV 缓存如何与极致优化的 FlashAttention 内核在内存布局上完美耦合?
* 在极低功耗边缘设备上,额外步骤的固定开销占比是否会升高?
这些“隐藏成本”在极端场景下【可能】显现。因此,虽然 QUOKA 在评测中证明了其独立部署的价值,但如何与 FlashAttention-3、PagedAttention 等底层内存管理系统以及动态批处理调度器无缝协同,以实现系统级最优,仍是一个需要未来工作探索的开放性问题。
一、推理瓶颈,预填充的算力黑洞
当前 LLM 推理主要分为两个阶段:预填充 和生成。预填充阶段处理整个输入提示,计算复杂度为 ,其中 是输入序列长度。
对于长上下文场景,这成为主要的计算瓶颈。生成阶段每次只处理一个新查询,复杂度为 ,随着输出增长,KV 缓存的内存与带宽压力逐渐成为瓶颈。
为了应对长序列输入,分块预填充 被广泛采用。它将输入序列划分为多个不重叠的块,按顺序处理每个块。例如一个包含 6 个 Token 的提示可以分为 3 个块,每块 2 个 Token 。对每个块,模型需要计算该块内所有查询与当前块及之前所有块的键 之间的注意力。
虽然分块能改善调度和内存利用率,但注意力计算依然是二次复杂度。例如在处理第 个块时,需要计算 与 的注意力,其中 包含之前所有块的键。
这种情况下,即使使用 FlashAttention 等优化内核改善内存访问模式,也无法改变算法复杂度 的根本问题。
二、稀疏注意力,两条路线的困境
现有的稀疏注意力方法主要分为两大类:基于模式 和基于查询。
2.1 基于模式的稀疏注意力
如块稀疏、带状稀疏,采用固定的稀疏模式,通过跳过部分注意力计算来减少计算量。
这类方法通常依赖高度优化的定制 CUDA 内核来实现加速,例如 Sparse FlashAttention、Block-Sparse Attention 等。虽然它们在特定硬件上可以获得不错的加速比,但其可移植性差,难以在 CPU、移动 GPU 等不同硬件上获得一致性能。
更重要的是,在分块预填充场景下, 由于需要反复调用内核并移动 KV 缓存,这些方法的实际加速效果大打折扣。
2.2 基于查询的稀疏注意力
如 SPARQ、LoKI、SampleAttention,则采用另一种思路:为每个查询动态选择最相关的 KV 对。
这类方法在生成阶段表现良好,因为每次只需为单个查询选择 KV。但在预填充阶段,需要同时为多个查询 选择 KV。现有方法通常简单地将各查询的评分平均,这导致重要但罕见的查询-键交互被淹没,性能显著下降。
Qualcomm AI Research 的研究团队发现了一个关键现象:与平均查询余弦相似度较低的查询【倾向于】与更多的键交互。

图 2 | 来自 Llama 3.2-3B-Instruct 模型第 0 层第 11 个注意力头的实证观察:(a)注意力图 A;(b)查询(Q)和键(K)的主成分分析可视化,显示 Sq 值越高的查询越靠近键簇;(c)Sq 与 maxₖ(A) 的散点图,表明 Sq 值越高的查询与键的交互越强。该图验证了 QUOKA 的核心观察,Sq 值成为筛选关键查询的重要指标,高 Sq 查询的强交互特性使其能替代冗余查询,为查询子选步骤提供了实证支撑,确保精简后仍能保留核心注意力信息。
如图 2 所示,在 Llama 3.2-3B-Instruct 模型的第 0 层第 11 头中,具有较高 Sq(即与平均查询余弦相似度较低)的查询在非“注意力汇聚(sink)token”位置上表现出更高的注意力峰值(图 2c),且其查询向量在 PCA 投影中更靠近键簇(图 2b)。这说明这类“离群查询”对特定键的影响力更强,而非单纯地关注更多键。
这一观察直观上很合理:如果一个查询与“典型”查询差异很大,它可能需要关注更多样化的键来获取所需信息;而接近平均的查询则可能只需要关注一小部分共享的关键键。
三、QuoKA 三阶段:查询优先的 KV 选择
基于这一观察,Qualcomm 团队提出了QuoKA,一个三阶段的稀疏注意力算法:

算法 1 | QuoKA 的 KV 缓存子选择算法,包含查询子选择、余弦相似度评分和聚合三个核心步骤。QUOKA 的 KV 缓存子选择算法以分块预填充为背景,首先依据查询几何特性进行筛选:若当前块长度 L 大于预设保留查询数 M,则计算所有查询 Q 的均值 Q̄,通过余弦相似度 Sq 度量每个查询与均值的偏离程度,并保留相似度最低(即负分最高)的 M 个查询 Q’,因为这些“离群查询”主导注意力分布。接着,对筛选后的 Q’ 及所有键 K 执行 L2 归一化以消除幅值影响。为兼容分组查询注意力(GQA),将 Q’ 重塑为 (M, H, G, D) 并在组内平均得到每 KV 头的代表查询 Q’_avg。随后计算 Q’_avg · K^T 得到相似度矩阵 S,沿查询维度取最大值 S_max 以保留最强交互信号,再经 top-k 选出全局最重要的 k 个键索引 idx,最终通过 gather 取出对应的键 K’ 与值 V’ 供后续稠密注意力使用。此流程将 O(N^2) 复杂度降至亚二次。它无需训练、硬件无关,大幅减少注意力计算的KV对用量,在GPU和CPU上均实现显著加速,同时保持模型近基线的推理精度。
下面,我们来看看这个算法的三个阶段。
3.1 第一阶段:查询子选择
QuoKA 首先从当前块的所有查询中挑选出最具代表性的 M 个查询。选择标准是查询向量与平均查询向量之间的余弦相似度,具体来说是选择相似度最低(即差异最大)的那些查询。
为什么要这样做?
定理 1 从几何角度提供了理论支撑:若某个查询 q 与键 k 有较强的正相似度(q·k > 0),而平均查询 q̄ 与同一键 k 呈负相似度(q̄·k < 0),则查询 q 与平均查询 q̄ 的余弦相似度会被约束在一个随 q·k 变化的上界内。
直观地看,这一定理表明:与平均查询差异较大的查询(即 Sq 较小甚至为负)往往与某些键有更强的正交互,因此它们对最终注意力分布的贡献更为关键。QuoKA 正是通过保留这类“离群查询”来近似全注意力的行为。
这意味着与平均查询差异大的查询,其与各键的交互模式更多地反映了键本身与平均查询的关系,从而更具代表性。
实践中,QuoKA 计算每个查询 q_i 与平均查询 q̄ 的余弦相似度 Sq_i,然后选择 Sq_i 最小的 M 个查询。这一步将查询数量从 L 减少到 M,大幅降低了后续计算复杂度。
3.2 第二阶段:余弦相似度评分
对于选出的代表性查询,QuoKA 计算它们与所有候选键的余弦相似度矩阵 S。
为什么使用余弦相似度而非点积?点积受向量范数影响大,且在不同查询间难以比较。余弦相似度通过归一化消除了范数影响,提供了一个有界 [-1, 1]、稳定的注意力权重代理。
实验表明,在 RULER 基准测试中,使用余弦相似度比点积提高子选择质量 10%以上。

图 3 | 注意力得分偏离均值的最大绝对值分布(沿查询和注意力头维度)。该分布图呈现注意力得分的重尾特性,说明存在少量关键的强交互查询 – 键对,这为 QUOKA 在聚合步骤采用 “取最大值” 策略提供了依据,可有效保留稀有但重要的交互信息,提升键值选择准确性。
3.3 第三阶段:跨查询与 KV 组的聚合
QuoKA 需要将 M 个查询的评分聚合为每个键的单一重要性分数。简单的平均会淹没那些重要但罕见的查询-键交互,因此 QuoKA 采用最大值聚合:对每个键,取所有查询评分的最大值作为其最终分数。
这种选择基于注意力评分的重尾分布特性——少数重要的查询-键交互决定了大部分注意力权重。
对于采用分组查询注意力(GQA)的模型,不同 KV 头之间的注意力模式往往具有相关性,因此 QuoKA 在跨头聚合时采用平均值。
关键的工程优化在于“预聚合”:QuoKA 在计算余弦相似度之前,先将查询向量在 KV 组维度上进行平均(即 Algorithm 1 第 8 行)。
由于平均操作是线性的,且余弦相似度中的归一化不改变线性组合关系,这种预聚合在数学上等价于先计算每个头与所有键的相似度再取平均,但计算复杂度从 O(M * G * N) 降到了 O(M * N)。
现代模型中 G 通常很大(例如 GQA 中 G=8),这一优化使 QuoKA 在 GQA 架构上的评分开销骤减,是实现硬件无关高效率的关键之一。
一个关键优化是预聚合:在计算余弦相似度之前,先将查询在 KV 组维度上平均,这利用了平均值的线性和余弦相似度的性质,将计算和内存成本降低了 G 倍(现代模型中 G 通常很大)。
四、实验验证:精度保持与显著加速
为了全面评估 QuoKA 的性能,研究团队在多个基准测试和模型架构上进行了广泛实验。
测试基准包括:
* Needle-In-A-Haystack:评估模型从长上下文中检索特定信息的能力
* RULER:综合长上下文能力测试,包含多针检索、多跳追踪等复杂任务
* LongBench:多任务长上下文理解基准,包含真实世界文档
* Math500:数学推理任务,测试生成阶段的稀疏注意力效果
比较方法包括:
* SampleAttention:均匀采样查询的方法
* LessIsMore:仅在特定层计算注意力的方法
* SPARQ:在通道维度子选择的方法
* LoKI:通过低维投影子选择的方法

图 4 | 在 KV 选择预算 k=64、分块大小 L=512 的设置下,Needle-In-A-Haystack(NIAH)基准测试中,文档长度和目标深度对准确率的影响。其他稀疏注意力方法的结果见图 7。实验聚焦长文本信息检索场景,对比显示 QUOKA 在不同文档长度和目标深度下均保持高准确率,而其他稀疏方法性能显著下降,印证了 QUOKA 在保留关键信息方面的优势,适配长上下文任务需求。

图 7 | 使用 k=64、L=512 的额外稀疏注意力方法在 NIAH 基准的表现,展示文档长度和目标深度对准确率的影响:(a)QUOKA;(b)SampleAttention;(c)稠密注意力;(d)Loki;(e)SparQ;(f)LessIsMore。该图通过多方法对比,凸显 QUOKA 在长文本检索任务中的性能优势,其准确率接近稠密注意力,远超其他稀疏方法,验证了查询子选和键值筛选策略的有效性,为稀疏注意力在预填充场景的优化提供了新范式。
4.1 RULER 基准测试结果
表1展示了在RULER基准上,随着上下文长度从4k扩展到32k,不同稀疏注意力方法的性能对比。QuoKA在所有测试模型和长度上均显著优于基线方法。

表 1 | 在键值选择预算=1024、不同提示长度下,注意力稀疏化方法应用于全注意力层的RULER基准测试结果(分数越高越好)。QuoKA在各项测试中均领先主流稀疏方法10-20%,表明其在多任务长上下文场景中能更有效地保留注意力核心信息。
当上下文长度达到32k Token时,QuoKA的准确率保持在57.01%,而最佳基线方法SampleAttention仅为31.73%。这证明QuoKA在捕捉长距离依赖关系方面更为有效。

表 2 | 键值选择预算设为键值缓存长度25%时,QuoKA在RULER基准的测试结果。该结果表明,即使在动态缩减的预算下,QuoKA面对32768长度的超长提示,各模型准确率下降幅度最大不足5%,验证了其稀疏策略在有限预算下对超长序列的鲁棒性。
4.2 LongBench 基准测试结果
表3展示了QuoKA在LongBench基准上的归一化准确率(相对于稠密基线的比例)。结果显示,即使在极小的键值选择预算下,QuoKA也能维持接近基线的性能。

表 3 | LongBench基准测试结果(分数越高越好),各模型在不同键值选择预算下的表现。以稠密注意力为基准(1.0表示无精度损失),QuoKA在极小预算(512)下仍能保持0.869以上的相对分数,远超其他方法,且随着预算增加,其精度可逼近甚至超越稠密基准。
值得注意的是,QuoKA在某些情况下取得了超过1.0的分数,这意味着稀疏化的注意力机制有时能产生比完整注意力更好的效果。一种可能的推测是,稀疏化过程过滤了部分无关或干扰性的键值信息,使模型能更聚焦于关键内容。原论文作者客观报告了此现象,其具体机制仍有待深入研究。总体而言,上表数据表明QuoKA在不同模型和预算设置下均保持了最佳性能。
五、内存效率提升:从数据中心到边缘设备
QuoKA不仅在精度上表现优异,其计算效率的提升更为显著。研究团队在不同硬件平台上进行了全面的延迟测试。

图 5 | 键值选择预算=128时,在不同硬件上,注意力计算和首次标记生成时间相对于稠密注意力基准的加速比:(a)NVIDIA A100 GPU上的注意力延迟;(b)NVIDIA A100 GPU上的TTFT;(c)Intel Xeon W-2125 CPU上的注意力延迟;(d)NVIDIA RTX 2080 GPU上的注意力延迟。该图量化了QuoKA的硬件适配性,其在企业级GPU、消费级GPU和CPU上均实现了显著加速,其中在CPU上获得了近7倍的注意力加速,TTFT降低了3倍,证明了其硬件无关的广泛部署潜力。
5.1 企业级 GPU 上的性能
在NVIDIA A100 GPU上,QuoKA实现了:
* 注意力模块级加速:最高达5倍。
* 首Token生成时间减少:最高达3倍。
如图5a所示,随着序列长度增加,QuoKA的加速效果愈发明显。 在16k Token长度时,QuoKA的注意力计算速度比稠密注意力快约4.5倍,而其他稀疏方法通常仅能达到2-3倍的加速。
5.2 消费级硬件上的性能
在更广泛的硬件平台上,QuoKA同样表现出色:
* Intel Xeon W-2125 CPU:最高实现7倍的注意力加速。
* NVIDIA RTX 2080 GPU:最高实现5-6倍的注意力加速。
QuoKA的硬件无关性使其能在不同平台上均获得可观加速,这得益于其完全基于标准的线性代数运算,无需依赖特定硬件的定制内核。
5.3 内存效率提升
除了计算加速,QuoKA还显著降低了内存带宽需求。 在典型的预算设置下,QuoKA每次注意力评估仅使用原始键值对的12%,减少了88%的键值缓存访问量。这对于内存带宽受限的设备(如移动GPU和CPU)尤为重要,因为内存访问通常是此类设备的性能瓶颈。
六、消融实验:理解 QuoKA 的设计选择
为验证QuoKA各设计组件的必要性,研究团队进行了一系列消融实验。
| 实验维度 | 实验设置与对比项 | 实验结果与结论 |
| :— | :— | :— |
| 查询子选择的影响 | 对比随机选择、选择与平均查询最相似的查询、QuoKA选择最不相似查询三种策略。 | QuoKA的策略在RULER基准上准确率高出15-20%,证明选择代表性查询是关键。 |
| 聚合策略的影响 | 对比平均值、中位数、QuoKA采用的最大值三种聚合策略。 | 最大值聚合表现最佳,能保留罕见但重要的交互,在RULER基准上比平均值聚合高约8%准确率。 |
| 余弦相似度与点积 | 对比余弦相似度与点积两种评分函数。 | 使用余弦相似度进行子选择,其质量提升10%以上,对向量范数不敏感,相关性估计更稳定。 |
| 超参数鲁棒性 | 测试超参数(仅保留1/16查询)下的表现。 | 准确率下降不足9%,表明QuoKA对超参数鲁棒,易于在不同硬件约束下进行调整优化。 |
七、相关工作:稀疏注意力的演进脉络
QuoKA建立在大量先前工作基础上,并致力于解决它们的局限性。
| 方法类别 | 相关方法及核心特点 | QuoKA的优势/关联 |
| :— | :— | :— |
| 动态查询依赖的稀疏注意力 | 如SPARQ、LoKI,为单个查询动态选择键值对,在生成阶段表现好,但在预填充阶段因简单平均查询评分导致性能下降。 | 通过先选择代表性查询再匹配键值对,解决了多查询聚合问题,优化了预填充性能。 |
| KV缓存淘汰 | 如H2O、StreamingLLM,淘汰低重要性键值对以减少内存占用,主打生成阶段,但在多查询聚合时平等对待所有查询。 | 与此类策略互补,结合使用可进一步提升键值缓存优化的收益。 |
| 内核级稀疏注意力 | 如Block-Sparse FlashAttention、Sparse Attention Kernel,采用预定义稀疏模式加速计算,依赖特定硬件优化内核,可移植性差。 | 兼容标准稠密内核,无硬件依赖,具备更优的硬件普适性。 |
八、未来展望与结论
QuoKA展示了查询导向的键值选择在加速大语言模型推理方面的巨大潜力。其核心创新在于认识到与平均查询差异大的查询更具代表性,并基于此设计了三阶段选择流程。
该方法不仅减少了88%的键值对使用,还在多个基准测试上达到甚至有时超越了稠密注意力的性能。 更重要的是,QuoKA完全基于标准线性代数运算,无需训练,不依赖特定硬件,具有良好的可移植性。
未来,QuoKA可在以下方向进一步探索:
* 与动态键值缓存淘汰等内存优化策略深度结合。
* 探索更高效的查询代表性度量与聚合方法。
* 研究如何将QuoKA思想应用于训练阶段或更广泛的模型架构中。
| 优化方法 | 说明 |
| :— | :— |
| 与淘汰策略结合 | 当前 QuoKA 在每个分块处理时均基于完整的 KV 缓存进行子选择,计算完成后子集即被释放,并未减少 KV 缓存本身的长期内存占用。一个自然的演进方向是:将 QuoKA 应用于已经过淘汰策略压缩的 KV 缓存上,例如先使用 H2O、StreamingLLM 等方法永久性移除低价值 KV 对,再在缩减后的缓存上运行 QuoKA 的子选择,从而同时降低计算复杂度与长期内存占用。 |
| 学习低维投影 | 通过学习查询和键的低维投影,可进一步降低评分计算成本。 |
| 自适应预算分配 | 根据输入序列特性动态调整预算,在简单序列上使用更高稀疏度,在复杂序列上保留更多 KV 对。 |
| 跨层共享选择 | 在 Transformer 的不同层之间共享 KV 选择结果,减少重复计算。 |
随着 LLM 向更长上下文、更多设备部署发展,像 QuoKA 这样的高效推理技术将变得越来越重要。它不仅使长上下文应用更加可行,也为在资源受限设备上部署大模型打开了新的可能性。
对于希望优化 LLM 推理效率的研究者和工程师而言,QuoKA 提供了一个强大而简单的工具。得益于其完全基于标准线性代数算子的设计,QuoKA 无需重新训练模型,并且可以方便地集成到现有的 PyTorch 或 TensorFlow 推理脚本中,无需定制 CUDA 内核。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20474
