谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

一场席卷市场的震荡,意外牵出了一桩学术争议。

本周五晚,谷歌研究团队的一篇论文陷入学术不端指控,成为AI社区关注的焦点。苏黎世联邦理工学院(ETH Zurich)的博士后研究员高健扬发文指出,谷歌研究团队的论文《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》在描述已有的RaBitQ向量量化算法、理论结果对比及实验对比方面存在严重问题。更关键的是,据称相关疏漏早在论文投稿前就已向作者方明确指出,却遭到刻意忽视。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

引发市场震荡的TurboQuant

谷歌的TurboQuant论文近期影响力已超出纯学术圈。这篇被顶级学术会议ICLR 2026接收的论文,提出了一种压缩算法,声称能将大语言模型推理时KV缓存的内存占用减少至少6倍,速度提升高达8倍,且保持精度无损。

TurboQuant于2025年4月首次公开在arXiv预印本平台,2026年1月被ICLR 2026接收。随着2026年3月24日谷歌研究博客的专题介绍,这项技术获得了巨大关注。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震
(谷歌在X平台上的宣传帖浏览量达数千万次。)

在大模型推理过程中,每次生成新词都需要回顾整个对话历史(上下文),这部分信息存储在KV缓存中。因此,KV缓存的内存占用往往成为制约大模型推理速度和成本的主要瓶颈。TurboQuant提出的高效无损压缩方法效果显著,由于能大幅降低运行大模型所需的硬件资源,直接动摇了市场对内存芯片需求激增的预期。

在谷歌博客发布当天,美国多家内存相关公司股价出现集体下跌,市场单日蒸发市值超过900亿美元。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

这项被广泛宣传的技术原理何在?简而言之,它旨在通过一套精巧的方法解决内存消耗的核心难题。

TurboQuant通过两阶段压缩实现目标:第一阶段利用“随机旋转”和PolarQuant机制将高维向量映射到极坐标,实现初步压缩;第二阶段利用量化Johnson-Lindenstrauss (QJL) 变换,仅用1比特空间来修正内积计算的偏差。

然而,正是这部分核心技术,成为了此次学术争议的导火索。

高健扬博士列举证据称,这项被谷歌宣称为“革命性”的核心机制并非其首创,他的团队在两年前就已完整提出了类似方案。更令人质疑的是,谷歌论文被指刻意“回避”和“淡化”了这项先行工作。

RaBitQ作者公开质疑:TurboQuant核心方法已有先例

RaBitQ系列论文于2024年发表,提出了一种高维向量量化方法,并从理论上证明其达到了相关理论计算机顶级会议论文给出的渐近最优误差界。该工作及其扩展版分别发表于顶级会议SIGMOD 2024和SIGMOD 2025。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

RaBitQ的核心思路之一,是在量化前对输入向量施加随机旋转(random rotation / Johnson-Lindenstrauss变换),利用旋转后坐标分布的特性进行向量量化,从而在理论上实现最优误差界。

而TurboQuant方法的核心同样是在量化前对输入向量施加随机旋转(Johnson-Lindenstrauss变换)——这一点,甚至是TurboQuant作者在ICLR审稿回复中亲自描述的。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

然而,指控指出,TurboQuant论文通篇刻意回避了其方法与RaBitQ的直接关联,反而在正文中将RaBitQ描述为一种基于网格的乘积量化(grid-based PQ)方法,并且在描述中忽略了RaBitQ核心的随机旋转步骤,有意模糊两者之间的传承关系。

据称,TurboQuant的第二作者Majid Daliri早在2025年1月就曾主动联系高健扬,请求协助调试其自行用Python复现的RaBitQ代码。这表明TurboQuant团队对RaBitQ的技术细节有相当了解。

既然早已了解并曾向原作者请教,为何在最终论文中没有进行合理的引用和客观的对比?

高健扬团队在发现问题后,本着学术严谨的态度,自2025年5月起通过邮件与TurboQuant团队进行了多次私下沟通,明确指出了其中的事实性错误。但据称,TurboQuant团队以“随机旋转已成为领域标准技术,无法引用每一个使用它的方法”为由拒绝修改。随后,这篇论文不仅被ICLR 2026接收,还成为了全球关注的焦点。

高健扬团队认为,若不纠正此类学术叙事,它将逐渐成为被默认的“事实”。因此,他们最终公开列出了几项具体指控。

三项具体指控

高健扬在文章中列出了三项主要问题:

第一,系统性回避技术相似性。
指控称,TurboQuant不仅未正面讨论其方法与RaBitQ的结构性联系,反而将原本正文中对RaBitQ的不完整描述移到了附录中。这一改动甚至发生在审稿人已明确指出“RaBitQ及其变体与TurboQuant相似,因为它们都使用了随机投影”并要求充分讨论之后。
TurboQuant作者回复审稿人称:“随机旋转和Johnson-Lindenstrauss变换的使用已经是该领域的标准技术,我们不可能引用每一篇使用了这些方法的论文。”
高健扬团队认为这一回应是在转移矛盾:RaBitQ作为在相同问题设定下,率先将随机旋转(Johnson-Lindenstrauss变换)与向量量化结合、并建立了最优理论保证的具体先行工作,理应在文中被准确描述,其与TurboQuant方法的联系也应得到充分讨论。

第二,错误描述RaBitQ的理论结果。
TurboQuant论文将RaBitQ的理论保证定性为“次优(suboptimal)”,并归因于“较粗糙的分析(loose analysis)”,但未提供任何推导、对比或证据。
事实是,在RaBitQ扩展版论文(arXiv:2409.09913)的Theorem 3.2中,已严格证明RaBitQ的误差界达到了理论计算机顶级会议(Alon-Klartag, FOCS 2017)给出的渐近最优误差界。正因为这一成果,高健扬团队曾受邀在理论计算机科学顶级会议FOCS的研讨会上进行报告。
据称,2025年5月,高健扬团队与TurboQuant第二作者Majid Daliri进行了多轮详细的邮件技术讨论,逐条澄清了这一错误解读,Majid Daliri也明确表示已告知全体共同作者。然而,这一错误的定性在论文经历完整审稿、被接收乃至大规模宣传的整个过程中,始终未被更正。

第三,刻意制造不公平的实验条件。

TurboQuant 论文在测试 RaBitQ 速度时,存在两处未明确披露的系统性不公平条件:其一,未使用 RaBitQ 官方开源的 C++ 实现,而是采用了 Majid Daliri 自行翻译的 Python 版本;其二,将 RaBitQ 限制在单核 CPU 且关闭多线程的条件下运行,而 TurboQuant 自身则使用了 NVIDIA A100 GPU 进行测试。

Majid Daliri 本人在 2025 年 5 月的邮件中承认了单核限制的情况。然而,论文仍将由此得出的“RaBitQ 比 TurboQuant 慢数个数量级”的结论呈现给读者,且未附加任何说明。

选择公开发声

高健扬表示,其团队在 2025 年 11 月发现 TurboQuant 提交至 ICLR 2026 后,便联系了 ICLR 程序委员会主席,但未获回应。

2026 年 1 月论文被正式接收后,谷歌开始通过官方渠道大规模推广,相关内容的社交媒体浏览量迅速达到数千万次。

2026 年 3 月,高健扬团队再次正式致函 TurboQuant 全体作者,要求说明与更正。目前收到的回复来自第一作者 Amir Zandieh,其承诺在 ICLR 会议正式结束后修正前述两个测试公平性问题,但拒绝就技术相似性问题进行任何讨论。

高健扬已在 ICLR OpenReview 平台发布公开评论,并向 ICLR 大会主席、程序委员会主席及代码与伦理委员会主席提交了包含完整证据的正式投诉。同时,他表示将在 arXiv 发布关于 TurboQuant 和 RaBitQ 的详细技术报告,并保留向相关机构进一步反映的选项。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

他在文末写道:“一篇论文被 Google 以数千万曝光量推向公众,在这种体量下,论文中错误的叙事不需要主动传播,只需要不被纠正,就会自动成为共识。”

目前,高健扬等人的主张获得了许多人的支持。

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

谷歌ICLR顶会论文陷抄袭风波:TurboQuant核心技术被指两年前已由ETH团队提出,引发AI圈学术地震

不少评论指出,谷歌在 AI 研究中的类似做法已非首次。此事或许需要谷歌与 ICLR 官方给出解释。

参考内容
* https://openreview.net/forum?id=tO3ASKZlok
* https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27747

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • 重构AI记忆范式:GAM框架如何以动态搜索替代静态压缩,突破智能体长期记忆瓶颈

    在人工智能尤其是大模型驱动的智能体系统中,记忆机制一直是制约其长期任务执行与复杂推理能力的关键瓶颈。传统AI记忆系统普遍采用“压缩-摘要”模式,即将冗长的思维链、工具调用记录等历史轨迹压缩为简短的文本摘要以节省存储空间。这种做法的致命缺陷在于:信息保真度严重受损。如同将一本百科全书强行压缩成一张便利贴,当智能体后续需要回溯具体决策细节、工具参数或中间推理步骤…

    2025年11月27日
    19900
  • OpenClaw全球爆火:龙虾教徒日烧10亿token,AI Agent成新宠

    全球掀起OpenClaw热潮 近日,黄仁勋公开表示,OpenClaw可能是历史上最重要的软件发布。 这股风潮迅速席卷全球。在国内,某云服务商宣布提供线下免费安装服务,吸引了从2岁孩童到60岁长者的广泛人群,现场排起长队。 当前全网热议的“养龙虾”,主角并非水产养殖户,而是指代训练和配置OpenClaw AI Agent的开发者与爱好者。 这股狂热并不局限于国…

    2026年3月7日
    42300
  • VANS模型:从文本到视频的AI推理革命,开启“视频即答案”新纪元

    在人工智能技术日新月异的今天,我们正见证着AI从单纯的信息处理工具向具备深度感知与创造性输出能力的智能体演进。传统AI模型在面对用户查询时,往往局限于生成文本答案,这种交互方式在解释复杂动态过程或视觉化场景时显得力不从心。例如,当用户询问“如何打温莎结”时,文字描述难以精确传达手指的缠绕顺序和力度变化;而面对“电影主角下一秒会做什么”的开放式问题,静态的文字…

    2025年11月22日
    21700
  • 美团视频生成模型来了!一出手就是开源SOTA

    美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

    2025年10月27日
    34600
  • OpenAI内部揭秘:95%工程师用Codex,AI将吃掉所有脚手架,B2B SaaS黄金时代来临

    “我们可能真的会进入一个B2B SaaS的黄金时代!”“接近100%的代码最初都是由AI生成的。”“我们活在‘硅谷泡泡’里。” 春节前夕,OpenAI API和开发者平台工程负责人Sherwin Wu与知名播客主持人Lenny进行了一期播客录制。API作为OpenAI的第一个产品,也是几乎所有AI创业公司都在集成的产品,这给了Sherwin一个极其独特且宏观…

    2026年2月19日
    22000