一场席卷市场的震荡,意外牵出了一桩学术争议。
本周五晚,谷歌研究团队的一篇论文陷入学术不端指控,成为AI社区关注的焦点。苏黎世联邦理工学院(ETH Zurich)的博士后研究员高健扬发文指出,谷歌研究团队的论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》在描述已有的RaBitQ向量量化算法、理论结果对比及实验对比方面存在严重问题。更关键的是,据称相关疏漏早在论文投稿前就已向作者方明确指出,却遭到刻意忽视。

引发市场震荡的TurboQuant
谷歌的TurboQuant论文近期影响力已超出纯学术圈。这篇被顶级学术会议ICLR 2026接收的论文,提出了一种压缩算法,声称能将大语言模型推理时KV缓存的内存占用减少至少6倍,速度提升高达8倍,且保持精度无损。
TurboQuant于2025年4月首次公开在arXiv预印本平台,2026年1月被ICLR 2026接收。随着2026年3月24日谷歌研究博客的专题介绍,这项技术获得了巨大关注。

(谷歌在X平台上的宣传帖浏览量达数千万次。)
在大模型推理过程中,每次生成新词都需要回顾整个对话历史(上下文),这部分信息存储在KV缓存中。因此,KV缓存的内存占用往往成为制约大模型推理速度和成本的主要瓶颈。TurboQuant提出的高效无损压缩方法效果显著,由于能大幅降低运行大模型所需的硬件资源,直接动摇了市场对内存芯片需求激增的预期。
在谷歌博客发布当天,美国多家内存相关公司股价出现集体下跌,市场单日蒸发市值超过900亿美元。

这项被广泛宣传的技术原理何在?简而言之,它旨在通过一套精巧的方法解决内存消耗的核心难题。
TurboQuant通过两阶段压缩实现目标:第一阶段利用“随机旋转”和PolarQuant机制将高维向量映射到极坐标,实现初步压缩;第二阶段利用量化Johnson-Lindenstrauss (QJL) 变换,仅用1比特空间来修正内积计算的偏差。
然而,正是这部分核心技术,成为了此次学术争议的导火索。
高健扬博士列举证据称,这项被谷歌宣称为“革命性”的核心机制并非其首创,他的团队在两年前就已完整提出了类似方案。更令人质疑的是,谷歌论文被指刻意“回避”和“淡化”了这项先行工作。
RaBitQ作者公开质疑:TurboQuant核心方法已有先例
RaBitQ系列论文于2024年发表,提出了一种高维向量量化方法,并从理论上证明其达到了相关理论计算机顶级会议论文给出的渐近最优误差界。该工作及其扩展版分别发表于顶级会议SIGMOD 2024和SIGMOD 2025。

RaBitQ的核心思路之一,是在量化前对输入向量施加随机旋转(random rotation / Johnson-Lindenstrauss变换),利用旋转后坐标分布的特性进行向量量化,从而在理论上实现最优误差界。
而TurboQuant方法的核心同样是在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换)——这一点,甚至是TurboQuant作者在ICLR审稿回复中亲自描述的。

然而,指控指出,TurboQuant论文通篇刻意回避了其方法与RaBitQ的直接关联,反而在正文中将RaBitQ描述为一种基于网格的乘积量化(grid-based PQ)方法,并且在描述中忽略了RaBitQ核心的随机旋转步骤,有意模糊两者之间的传承关系。
据称,TurboQuant的第二作者Majid Daliri早在2025年1月就曾主动联系高健扬,请求协助调试其自行用Python复现的RaBitQ代码。这表明TurboQuant团队对RaBitQ的技术细节有相当了解。
既然早已了解并曾向原作者请教,为何在最终论文中没有进行合理的引用和客观的对比?
高健扬团队在发现问题后,本着学术严谨的态度,自2025年5月起通过邮件与TurboQuant团队进行了多次私下沟通,明确指出了其中的事实性错误。但据称,TurboQuant团队以“随机旋转已成为领域标准技术,无法引用每一个使用它的方法”为由拒绝修改。随后,这篇论文不仅被ICLR 2026接收,还成为了全球关注的焦点。
高健扬团队认为,若不纠正此类学术叙事,它将逐渐成为被默认的“事实”。因此,他们最终公开列出了几项具体指控。
三项具体指控
高健扬在文章中列出了三项主要问题:
第一,系统性回避技术相似性。
指控称,TurboQuant不仅未正面讨论其方法与RaBitQ的结构性联系,反而将原本正文中对RaBitQ的不完整描述移到了附录中。这一改动甚至发生在审稿人已明确指出“RaBitQ及其变体与TurboQuant相似,因为它们都使用了随机投影”并要求充分讨论之后。
TurboQuant作者回复审稿人称:“随机旋转和Johnson-Lindenstrauss变换的使用已经是该领域的标准技术,我们不可能引用每一篇使用了这些方法的论文。”
高健扬团队认为这一回应是在转移矛盾:RaBitQ作为在相同问题设定下,率先将随机旋转(Johnson-Lindenstrauss变换)与向量量化结合、并建立了最优理论保证的具体先行工作,理应在文中被准确描述,其与TurboQuant方法的联系也应得到充分讨论。
第二,错误描述RaBitQ的理论结果。
TurboQuant论文将RaBitQ的理论保证定性为“次优(suboptimal)”,并归因于“较粗糙的分析(loose analysis)”,但未提供任何推导、对比或证据。
事实是,在RaBitQ扩展版论文(arXiv:2409.09913)的Theorem 3.2中,已严格证明RaBitQ的误差界达到了理论计算机顶级会议(Alon-Klartag, FOCS 2017)给出的渐近最优误差界。正因为这一成果,高健扬团队曾受邀在理论计算机科学顶级会议FOCS的研讨会上进行报告。
据称,2025年5月,高健扬团队与TurboQuant第二作者Majid Daliri进行了多轮详细的邮件技术讨论,逐条澄清了这一错误解读,Majid Daliri也明确表示已告知全体共同作者。然而,这一错误的定性在论文经历完整审稿、被接收乃至大规模宣传的整个过程中,始终未被更正。
第三,刻意制造不公平的实验条件。
TurboQuant 论文在测试 RaBitQ 速度时,存在两处未明确披露的系统性不公平条件:其一,未使用 RaBitQ 官方开源的 C++ 实现,而是采用了 Majid Daliri 自行翻译的 Python 版本;其二,将 RaBitQ 限制在单核 CPU 且关闭多线程的条件下运行,而 TurboQuant 自身则使用了 NVIDIA A100 GPU 进行测试。
Majid Daliri 本人在 2025 年 5 月的邮件中承认了单核限制的情况。然而,论文仍将由此得出的“RaBitQ 比 TurboQuant 慢数个数量级”的结论呈现给读者,且未附加任何说明。
选择公开发声
高健扬表示,其团队在 2025 年 11 月发现 TurboQuant 提交至 ICLR 2026 后,便联系了 ICLR 程序委员会主席,但未获回应。
2026 年 1 月论文被正式接收后,谷歌开始通过官方渠道大规模推广,相关内容的社交媒体浏览量迅速达到数千万次。
2026 年 3 月,高健扬团队再次正式致函 TurboQuant 全体作者,要求说明与更正。目前收到的回复来自第一作者 Amir Zandieh,其承诺在 ICLR 会议正式结束后修正前述两个测试公平性问题,但拒绝就技术相似性问题进行任何讨论。
高健扬已在 ICLR OpenReview 平台发布公开评论,并向 ICLR 大会主席、程序委员会主席及代码与伦理委员会主席提交了包含完整证据的正式投诉。同时,他表示将在 arXiv 发布关于 TurboQuant 和 RaBitQ 的详细技术报告,并保留向相关机构进一步反映的选项。

他在文末写道:“一篇论文被 Google 以数千万曝光量推向公众,在这种体量下,论文中错误的叙事不需要主动传播,只需要不被纠正,就会自动成为共识。”
目前,高健扬等人的主张获得了许多人的支持。


不少评论指出,谷歌在 AI 研究中的类似做法已非首次。此事或许需要谷歌与 ICLR 官方给出解释。
参考内容
* https://openreview.net/forum?id=tO3ASKZlok
* https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27747


