
国际表征学习大会(ICLR)2026年的评审结果近日公布,数据显示投稿量从2025年的11672篇暴增至19631篇,创下历史新高。然而,与数量增长形成鲜明对比的是论文质量的显著下滑:平均分从5.12跌至4.20,最高分也从10分降至8.5分。这一现象引发了学术界对当前AI研究生态的广泛关注与深刻反思。
从统计层面看,ICLR 2026的评分分布呈现出明显的“分数压缩”特征。根据Paper Copilot网站的数据,前30%论文的分数门槛从2025年的6.0分降至5.0分,反映出整体评审标准的收紧。生物医学工程博士Afshin Khadangi通过API获取的19129条评审意见显示,仅有1792篇(约9%)论文的平均评分达到6分及以上,这一比例远低于往年水平。更值得关注的是,有多名投稿人首次在ICLR上获得0分,甚至有国内研究者3篇投稿“全军覆没”,这在顶级会议中实属罕见。

评审过程中的异常现象进一步凸显了问题的复杂性。清华大学博士与普林斯顿博士后发现,提交ID越高的论文评分似乎越低,暗示可能存在评审疲劳或系统性偏差。而评审意见中出现的极端案例——如针对“白箱VS黑箱”术语的“种族歧视”指控,以及被删除的“精神病”评论——暴露了部分审稿人专业素养的缺失。这些事件在Reddit等平台引发热议,加剧了学术界对评审质量的担忧。



审稿人的反馈揭示了更深层的问题。亚马逊的一位ICLR审稿人指出,部分论文质量低下,充斥着未经定义的新术语、缺失引用,甚至疑似AI生成的段落。这类论文往往在评审后撤稿并转投其他会议,导致审稿资源被重复消耗。他建议建立临时投稿禁令机制,以遏制“屡投屡拒”的行为。Meta研究人员Tarun Kalluri则坦言,作为审稿人,他花费在部分论文上的时间甚至超过了作者,这反映出当前学术交流效率的低下。




DeepMind研究员Neel Nanda的观点为这一现象提供了理论视角。他在论文反驳指南中强调,同行评审已被实证研究验证为一种“随机数生成器”——在一项随机对照实验中,被评为“重点报告”的论文换组评审后有一半被拒。这提示我们,评审结果具有一定随机性,研究者不应将自我价值完全寄托于此。然而,这并不意味着评审毫无价值:合理的批评仍是提升论文质量的重要反馈。

ICLR作为机器学习领域的三大顶会之一,其评审危机折射出整个AI研究生态的挑战。投稿量的激增可能源于几个因素:AI技术的普及降低了研究门槛,机构对论文产出的考核压力,以及研究者对顶会认可的过度追逐。然而,数量的增长并未伴随质量的提升,反而导致了评审资源的稀释和标准的混乱。审稿人Cheems Wang指出,今年评分确实“保守了”,而审稿人Yu Su的数据显示,225篇论文中仅18篇平均初始得分超过6分,勉强达到会议接受底线。

这一现象也引发了关于评审机制改革的讨论。当前评审系统依赖于志愿审稿人,但面对近2万篇投稿,审稿负担已接近极限。部分审稿人采取“快速否决”策略,一旦发现低质量论文便提交简短评论,这虽然提高了效率,却可能误伤创新性研究。另一方面,论文质量的参差不齐使得审稿人难以保持一致的评判标准,导致评分分布偏离正态预期——正如那位亚马逊审稿人所言:“论文质量并不遵循正态分布,而我们却常常试图给出遵循正态分布的评分。”


从更宏观的视角看,ICLR 2026的评审危机是AI研究快速发展期的必然阵痛。随着技术民主化,更多研究者涌入这一领域,但学术规范和教育未能同步跟上。同时,顶会的“光环效应”使得投稿成为职业发展的必由之路,进一步加剧了数量竞争。要破解这一困局,可能需要多管齐下:加强研究伦理教育,优化评审匹配机制,探索分层会议体系,甚至引入AI辅助评审工具。





ICLR 2026将于明年4月23日至27日在巴西里约热内卢举行。这场评审风波无疑为会议蒙上了一层阴影,但也提供了改革的契机。学术界需要正视当前生态中的问题,推动从“数量导向”向“质量导向”的转变。只有构建更健康的研究环境,才能确保AI领域的可持续发展,让顶会真正成为思想碰撞与创新孵化的平台。

















— 图片补充 —


关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/11753
