稀疏注意力
-
高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率
关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…