谷歌研究院在即将到来的ICLR 2026学术会议上展示了一项突破性研究,推出了名为 TurboQuant 的新型压缩算法。该算法能够将AI推理过程中内存消耗最大的KV Cache压缩至少6倍,同时实现精度零损失。这一进展被市场解读为可能显著降低长上下文AI推理对内存的需求。

KV Cache量化至3比特
要理解TurboQuant的重要性,首先需要明确其解决的问题。在大模型推理过程中,处理过的信息会临时存储在KV Cache中,以便后续快速调用,避免重复计算。随着模型上下文窗口不断增长,KV Cache的内存消耗急剧膨胀,已成为AI推理的核心瓶颈之一。

传统的解决方案是向量量化,即将高精度数据压缩为低精度表示。然而,大多数量化方法本身需要存储额外的“量化常数”,每个数值会多占用1到2个比特。
TurboQuant通过两项关键创新,将这种额外开销降至零:
1. PolarQuant(极坐标量化)
该方法摒弃了传统的X、Y、Z坐标描述数据的方式,转而采用“距离+角度”的极坐标体系。谷歌团队发现,转换后角度的分布高度集中且可预测,因此完全无需存储额外的归一化常数。这类似于将“向东走3个路口,向北走4个路口”压缩为“朝37度方向走5个路口”——信息量不变,描述更紧凑,还节省了坐标系本身的开销。

2. QJL(量化JL变换)
该方法将高维数据投影后压缩为+1或-1的符号位,完全不需要额外内存。TurboQuant利用QJL来消除PolarQuant压缩后残留的微小误差。

两者结合后,PolarQuant用大部分比特容量捕捉数据的主要信息,QJL再用1个比特进行残差修正。最终实现了3比特量化,且无需任何模型训练或微调,精度无损。
性能基准测试表现卓越
谷歌团队在Gemma、Mistral等开源模型上进行了主流长上下文基准测试,覆盖问答、代码生成、摘要等多种任务。
在“大海捞针”测试中,TurboQuant在所有项目中均取得完美分数,同时将KV Cache的内存占用缩小了至少6倍。仅使用PolarQuant也达到了近乎无损的精度。

速度提升同样显著。在英伟达H100 GPU上,采用4比特TurboQuant计算注意力分数的速度,比32比特未量化版本快了8倍。这意味着该技术不仅节省内存,还大幅提升了计算效率。
在向量搜索领域,TurboQuant同样超越了现有最优量化方法的召回率,且无需针对特定数据集进行调优,也不依赖低效的大码本。

技术影响与现状
有行业观点将此视为“谷歌的DeepSeek时刻”,认为TurboQuant证明了用更少的资源也能运行高质量的推理,这与用较少资源训练顶尖模型的思路异曲同工。

谷歌表示,TurboQuant不仅可应用于Gemini等大模型,还能显著提升语义搜索的效率,使谷歌级别的万亿规模向量索引查询更快、成本更低。
不过,TurboQuant目前仍是一项实验室研究成果,尚未大规模部署。更重要的是,它仅解决了AI推理阶段的内存瓶颈问题,对训练环节并无影响。
论文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27419


