谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

一场席卷市场的震荡,意外牵出了一桩学术争议。

本周五晚,谷歌研究团队的一篇论文陷入学术不端指控,成为AI社区关注的焦点。苏黎世联邦理工学院(ETH Zurich)的博士后研究员高健扬发文指出,谷歌研究团队的论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》在描述已有的RaBitQ向量量化算法、理论结果对比及实验对比方面存在严重问题。更关键的是,据称相关疏漏早在论文投稿前就已向作者方明确指出,却遭到刻意忽视。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

引发市场震荡的TurboQuant

谷歌的TurboQuant论文近期影响力已超出纯学术圈。这篇被顶级学术会议ICLR 2026接收的论文,提出了一种压缩算法,声称能将大语言模型推理时KV缓存的内存占用减少至少6倍,速度提升高达8倍,且保持精度无损。

TurboQuant于2025年4月首次公开在arXiv预印本平台,2026年1月被ICLR 2026接收。随着2026年3月24日谷歌研究博客的专题介绍,这项技术获得了巨大关注。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震
(谷歌在X平台上的宣传帖浏览量达数千万次。)

在大模型推理过程中,每次生成新词都需要回顾整个对话历史(上下文),这部分信息存储在KV缓存中。因此,KV缓存的内存占用往往成为制约大模型推理速度和成本的主要瓶颈。TurboQuant提出的高效无损压缩方法效果显著,由于能大幅降低运行大模型所需的硬件资源,直接动摇了市场对内存芯片需求激增的预期。

在谷歌博客发布当天,美国多家内存相关公司股价出现集体下跌,市场单日蒸发市值超过900亿美元。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

这项被广泛宣传的技术原理何在?简而言之,它旨在通过一套精巧的方法解决内存消耗的核心难题。

TurboQuant通过两阶段压缩实现目标:第一阶段利用“随机旋转”和PolarQuant机制将高维向量映射到极坐标,实现初步压缩;第二阶段利用量化Johnson-Lindenstrauss (QJL) 变换,仅用1比特空间来修正内积计算的偏差。

然而,正是这部分核心技术,成为了此次学术争议的导火索。

高健扬博士列举证据称,这项被谷歌宣称为“革命性”的核心机制并非其首创,他的团队在两年前就已完整提出了类似方案。更令人质疑的是,谷歌论文被指刻意“回避”和“淡化”了这项先行工作。

RaBitQ作者公开质疑:TurboQuant核心方法已有先例

RaBitQ系列论文于2024年发表,提出了一种高维向量量化方法,并从理论上证明其达到了相关理论计算机顶级会议论文给出的渐近最优误差界。该工作及其扩展版分别发表于顶级会议SIGMOD 2024和SIGMOD 2025。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

RaBitQ的核心思路之一,是在量化前对输入向量施加随机旋转(random rotation / Johnson-Lindenstrauss变换),利用旋转后坐标分布的特性进行向量量化,从而在理论上实现最优误差界。

而TurboQuant方法的核心同样是在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换)——这一点,甚至是TurboQuant作者在ICLR审稿回复中亲自描述的。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

然而,指控指出,TurboQuant论文通篇刻意回避了其方法与RaBitQ的直接关联,反而在正文中将RaBitQ描述为一种基于网格的乘积量化(grid-based PQ)方法,并且在描述中忽略了RaBitQ核心的随机旋转步骤,有意模糊两者之间的传承关系。

据称,TurboQuant的第二作者Majid Daliri早在2025年1月就曾主动联系高健扬,请求协助调试其自行用Python复现的RaBitQ代码。这表明TurboQuant团队对RaBitQ的技术细节有相当了解。

既然早已了解并曾向原作者请教,为何在最终论文中没有进行合理的引用和客观的对比?

高健扬团队在发现问题后,本着学术严谨的态度,自2025年5月起通过邮件与TurboQuant团队进行了多次私下沟通,明确指出了其中的事实性错误。但据称,TurboQuant团队以“随机旋转已成为领域标准技术,无法引用每一个使用它的方法”为由拒绝修改。随后,这篇论文不仅被ICLR 2026接收,还成为了全球关注的焦点。

高健扬团队认为,若不纠正此类学术叙事,它将逐渐成为被默认的“事实”。因此,他们最终公开列出了几项具体指控。

三项具体指控

高健扬在文章中列出了三项主要问题:

第一,系统性回避技术相似性。
指控称,TurboQuant不仅未正面讨论其方法与RaBitQ的结构性联系,反而将原本正文中对RaBitQ的不完整描述移到了附录中。这一改动甚至发生在审稿人已明确指出“RaBitQ及其变体与TurboQuant相似,因为它们都使用了随机投影”并要求充分讨论之后。
TurboQuant作者回复审稿人称:“随机旋转和Johnson-Lindenstrauss变换的使用已经是该领域的标准技术,我们不可能引用每一篇使用了这些方法的论文。”
高健扬团队认为这一回应是在转移矛盾:RaBitQ作为在相同问题设定下,率先将随机旋转(Johnson-Lindenstrauss变换)与向量量化结合、并建立了最优理论保证的具体先行工作,理应在文中被准确描述,其与TurboQuant方法的联系也应得到充分讨论。

第二,错误描述RaBitQ的理论结果。
TurboQuant论文将RaBitQ的理论保证定性为“次优(suboptimal)”,并归因于“较粗糙的分析(loose analysis)”,但未提供任何推导、对比或证据。
事实是,在RaBitQ扩展版论文(arXiv:2409.09913)的Theorem 3.2中,已严格证明RaBitQ的误差界达到了理论计算机顶级会议(Alon-Klartag, FOCS 2017)给出的渐近最优误差界。正因为这一成果,高健扬团队曾受邀在理论计算机科学顶级会议FOCS的研讨会上进行报告。
据称,2025年5月,高健扬团队与TurboQuant第二作者Majid Daliri进行了多轮详细的邮件技术讨论,逐条澄清了这一错误解读,Majid Daliri也明确表示已告知全体共同作者。然而,这一错误的定性在论文经历完整审稿、被接收乃至大规模宣传的整个过程中,始终未被更正。

第三,刻意制造不公平的实验条件。

TurboQuant 论文在测试 RaBitQ 速度时,存在两处未明确披露的系统性不公平条件:其一,未使用 RaBitQ 官方开源的 C++ 实现,而是采用了 Majid Daliri 自行翻译的 Python 版本;其二,将 RaBitQ 限制在单核 CPU 且关闭多线程的条件下运行,而 TurboQuant 自身则使用了 NVIDIA A100 GPU 进行测试。

Majid Daliri 本人在 2025 年 5 月的邮件中承认了单核限制的情况。然而,论文仍将由此得出的“RaBitQ 比 TurboQuant 慢数个数量级”的结论呈现给读者,且未附加任何说明。

选择公开发声

高健扬表示,其团队在 2025 年 11 月发现 TurboQuant 提交至 ICLR 2026 后,便联系了 ICLR 程序委员会主席,但未获回应。

2026 年 1 月论文被正式接收后,谷歌开始通过官方渠道大规模推广,相关内容的社交媒体浏览量迅速达到数千万次。

2026 年 3 月,高健扬团队再次正式致函 TurboQuant 全体作者,要求说明与更正。目前收到的回复来自第一作者 Amir Zandieh,其承诺在 ICLR 会议正式结束后修正前述两个测试公平性问题,但拒绝就技术相似性问题进行任何讨论。

高健扬已在 ICLR OpenReview 平台发布公开评论,并向 ICLR 大会主席、程序委员会主席及代码与伦理委员会主席提交了包含完整证据的正式投诉。同时,他表示将在 arXiv 发布关于 TurboQuant 和 RaBitQ 的详细技术报告,并保留向相关机构进一步反映的选项。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

他在文末写道:“一篇论文被 Google 以数千万曝光量推向公众,在这种体量下,论文中错误的叙事不需要主动传播,只需要不被纠正,就会自动成为共识。”

目前,高健扬等人的主张获得了许多人的支持。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

不少评论指出,谷歌在 AI 研究中的类似做法已非首次。此事或许需要谷歌与 ICLR 官方给出解释。

参考内容
* https://openreview.net/forum?id=tO3ASKZlok
* https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27747

(0)
上一篇 2026年3月29日 下午10:53
下一篇 2026年3月29日 下午10:57

相关推荐

  • 谷歌Gemini 3.1 Pro重磅发布:推理性能翻倍,成本效率革命性突破

    谷歌深夜放大招:Gemini 3.1 Pro 重磅发布,推理性能翻倍 谷歌在春节档大模型竞争白热化之际,于深夜突然发布了 Gemini 3.1 Pro。相较于去年11月发布的 Gemini 3 Pro,此次虽只是「.1」的小版本号升级,但提升幅度显著。 根据官方演示,3.1 Pro 在多模态生成和语义理解能力上均提升了一个层级。 新模型还能将日常数据转化为互…

    2026年2月25日
    64000
  • 开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

    上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。

    2025年10月25日
    56700
  • 小米MiMo-V2系列模型匿名上线引猜测,三款模型齐发推动AI从对话到任务执行

    上周,两个未署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别为“Hunter Alpha”和“Healer Alpha”。它们在没有任何官方宣传的情况下,调用量开始以异常的速度持续攀升。 其中,Hunter Alpha 更是多日登顶平台日榜,累计调用量突破 1T tokens,引发了社区的广泛猜测。最主流的观点认为其来自 Deep…

    2026年3月19日
    71700
  • 文心5.0:原生全模态架构如何重塑AI对世界的理解范式

    在2025百度世界大会上,文心新一代模型——文心5.0的发布标志着中国AI技术的一次重大突破。这款拥有2.4万亿参数的「原生全模态」模型,从底层架构上实现了深刻的变革,不仅在多模态理解、指令遵循、创意写作等40多个核心赛道表现惊艳,更在AI如何「理解世界」这一根本问题上提出了新的解决方案。 与业内主流的多模态AI不同,文心5.0的核心创新在于其「原生全模态」…

    2025年11月13日
    42900
  • SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

    3D生成技术面临“半开放”窘境 当前3D生成技术深陷“半开放”窘境:模型能够打造精美的样板间,却对真实世界中千变万化的物体与场景表现不稳定。 针对这一问题,IDEA研究院张磊团队与香港科技大学谭平团队联合推出了SceneMaker框架。该框架以万物检测模型DINO-X与万物3D生成模型Triverse为基础,实现了从任意开放世界图像(室内、室外、合成图等)到…

    2026年1月25日
    38300