Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

谷歌近期发布了一项新的研究进展:其研究团队利用 Gemini 模型进行了一次系统性的数学攻关实验,目标直指著名的 Erdős Problems 数据库中约 700 个仍被标记为“开放”(未解决)的猜想。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

实验成果显著:Gemini 在这批问题中成功推进了 13 个问题的解决进程。其中,5 个是由模型自主提出的全新解法,另外 8 个则是模型从文献中挖掘出了早已存在、但此前被遗漏的解答。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

  • 论文标题:Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
  • 论文链接:https://arxiv.org/pdf/2601.22401

Erdős Problems 数据库以 20 世纪最多产的数学家之一保罗·埃尔德什(Paul Erdős)的名字命名,他留下了大量涵盖数论、组合数学、图论等领域的未解猜想。2023 年,数学家托马斯·布鲁姆(Thomas Bloom)推出了 ErdosProblems.com 网站,旨在集中整理并跟踪这些猜想的研究进展。目前,该数据库共收录 1179 个问题,其中 483 个(41%)被归类为已解决。

然而,数据库中标记为“开放”的问题,并不意味着它们真的未被解决,而是指至少有一位专业数学家尝试通过网络搜索寻找已发表的解决方案,但未能成功。

事实证明,许多问题并非“未解决”,而是答案被淹没在浩如烟海的文献中。去年 10 月,OpenAI 曾宣布其模型在该网站上发现了 10 个标记为“开放”的问题,但它们的答案其实已经存在于相关文献中。这一发现使布鲁姆的数据库受到广泛关注,并促使陶哲轩近期创建了一个社区维基,专门跟踪人工智能辅助解决 Erdős 问题的相关动态。

如今,谷歌的研究将 Erdős 问题的解决又向前推进了一步。但研究团队也坦言,这并不意味着 AI 已经能够“自动进行数学研究”,其背后的复杂工作和巨大成本远超普通人的想象。

研究方法

研究团队在 2025 年 12 月 2 日至 9 日期间,部署了一个基于 Gemini Deep Think 的定制数学研究智能体 Aletheia,对布鲁姆数据库中当时仍标记为“开放”的约 700 个 Erdős 问题进行了半自动探索。Aletheia 内置自然语言验证器,用于在大规模生成后先进行第一轮筛选,将候选问题从 700 个快速收敛到 212 个“看起来可能正确”的回答。

接下来进入人工评估阶段。研究团队首先由非该领域专家的数学家进行快速过滤,在可控时间内剔除明显错误的解答,从而将候选规模压缩到 27 个,再交由内部领域专家逐一严格审查;当解法的正确性明确但新颖性存疑时,还会咨询外部专家核对文献。

最终统计显示,在可明确判定的约 200 个候选解中,137 个(68.5%)存在根本性错误;63 个(31.5%)在形式上成立,但其中只有 13 个(6.5%)真正回答了 Erdős 原本想问的问题。其余 50 个虽然“技术上正确”,却因为误读题意而导致数学意义有限,作者计划对这些问题提出更严谨的修订表述;此外还有 12 个回答因问题本身开放或表述不清而被标记为“歧义”。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本
Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

根据陶哲轩的建议,作者着重列出了上述数据以保证透明度。这也是为了更完整地呈现 AI 辅助数学研究的真实成本:除了少数成功案例外,大量时间会消耗在核验、纠错、排查细微错误,以及检索文献以排除“无意重复”上。

这表明,业内广为流传的“AI 正在加速科学”的论断有一定片面性:人们通常只展示少数成功案例,强调 AI 在某个任务上比人类更快,从而声称 AI“加速”了这一结果;但这类叙事很少把大量失败的尝试纳入计算。

更具挑战性的是最后一步——确认解答是否已在文献中出现,以及是否真正契合 Erdős 的原始意图。许多问题的困难不在于数学推导,而在于题面细节的抄录误差、遗漏,以及符号与定义约定的歧义;模型若不了解布鲁姆网站的定义惯例,往往会在多个“各自合理”的解释之间混淆。

作者指出,在深入进行文献核查与语义对齐后,“真正有意义的正确解”数量会显著下降,这也提醒未来的 AI 数学发现工作必须对题意一致性与文献溯源保持高度谨慎。

关键结果

作者将 13 个有意义的正确结果分为四类:

  1. AI 自主解决:对于这些问题,Aletheia 找到了首个正确的解决方案,且解决方案具有实质性的数学意义。其中包括 Erdős-652 和 Erdős-1051。需要说明的是,Erdős-652 的解决是通过直接引用现有文献中的结果实现的。
  2. 部分由 AI 解决:对于这些包含多个子问题的复杂问题,Aletheia 找到了其中一个子问题的首个正确解决方案。其中包括 Erdős-654、Erdős-935 和 Erdős-1040。
  3. 独立重发现:对于这些问题,Aletheia 找到了正确的解决方案,但人类审核者随后发现文献中已存在独立的解决方案。其中包括 Erdős-397、Erdős-659 和 Erdős-1089。这些解决方案似乎是模型独立重发现的:作者仔细检查了 Aletheia 的推理过程日志,确保该解决方案并非直接从文献中提取。当然,该解决方案也有可能是通过中间来源或预训练过程间接从文献中获取的。这凸显了 AI 生成数学内容所伴随的一个新风险:模型可能会再现预训练过程中习得的文献知识,却不注明来源,即存在“潜意识抄袭”的风险。
  4. 文献识别:对于这些问题,尽管在模型部署时布鲁姆网站将其标记为“开放”,但 Aletheia 识别出文献中已明确存在相关解决方案。其中包括 Erdős-333、Erdős-591、Erdős-705、Erdős-992 和 Erdős-1105。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

需要明确的是,研究团队并未声称后两类结果具有创新性。上述提到的 5 个自主生成的解决方案分别对应 Erdős-652、Erdős-654、Erdős-935、Erdős-1040 和 Erdős-1051。根据专家的评估,这 5 个解决方案均未达到学术论文的水平。事实上,其中一些解决方案仅相当于研究生习题的难度(基于现有文献)。

他们初步认为,Aletheia 对 Erdős-1051 的解决方案是 AI 系统自主解决具有一定普遍性(温和)数学意义的重要开放 Erdős 问题的早期案例——虽然存在关于密切相关问题的过往文献,但这些文献均未完全解决 Erdős-1051。

此外,与许多之前讨论的案例不同,作者认为 Aletheia 的解决方案并非直接受任何先前人类论证的启发,但该方案确实采用了经典思路:转向级数尾部并应用马勒准则(Mahler’s criterion)。在 Aletheia 与人类数学家以及 Gemini Deep Think 的协作下,Erdős-1051 的解决方案得到了进一步推广,并形成了研究论文。

研究意义

研究结果表明,Erdős 问题中存在一些“低垂的果实”,而 AI 已发展到能够摘取这些果实的水平。尽管这为 AI 研究人员提供了一种新的、有趣的数学基准,但作者提醒人们不应过度夸大其数学意义。本文解决的所有开放问题,任何相关领域的专家都能轻松完成。另一方面,人类专家的时间有限。如果能够提高 AI 的可靠性,它已展现出加速数学发现中注意力瓶颈环节的潜力。

在本文的案例研究中,作者遇到了一些最初未预料到的困难。绝大多数技术正确的自主生成解决方案都源于对问题陈述的误解或解读缺陷,而诊断这些问题有时需要花费大量精力。

此外,人类专家面临的最具挑战性的步骤并非验证解决方案的正确性,而是确定这些解决方案是否已存在于文献中。随着人工智能生成数学内容的增多,学术界必须警惕「潜意识抄袭」,即 AI 再现训练过程中习得的文献知识,却未给予适当引用。需要注意的是,形式化验证无法解决这些问题。

尽管 AI 自主解决 Erdős 问题的尝试取得了一定成功,但也引发了误导性的炒作和彻头彻尾的虚假信息,并在社交媒体平台上被放大,这对数学界造成了损害。除了 Erdős 问题,未来可能还会有许多其他数学猜想列表成为(半)自主研究的目标。作者恳请相关研究人员关注本文提出的这些问题。

更多信息请参考原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20139

(0)
上一篇 2026年2月3日 下午10:02
下一篇 2026年2月4日 上午12:03

相关推荐

  • DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

    本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。 你的生成模型真的「懂几何」吗? 当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍…

    2025年12月21日
    11200
  • QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5

    作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…

    2025年12月29日
    13100
  • ClaudeCode之父自曝:上月未开IDE,AI已写200个PR!Karpathy预警软件业9级地震,新人反成AI原生高手

    圣诞节当天,ClaudeCode 的创造者 Boris Cherny 在 X 上宣布,他将开始更积极地参与平台上的讨论。 大家好,我是Boris,我在Claude Code工作。我打算开始在X上更活跃一些,因为这里有很多关于人工智能和编程的讨论。 欢迎随时向我反馈 Claude Code 的使用体验或提交 bug 报告。我很想了解大家是如何使用 Claude…

    2025年12月27日
    14500
  • 从理论到实践:使用Model Context Protocol构建多工具AI代理的完整指南

    类比 我们都熟悉《Kaun Banega Crorepati(KBC)》节目中的“Phone a Friend(打电话求助)”环节。这是印度版的《Who Wants to Be a Millionaire?》。 现在,想象一下如果 KBC 节目诞生于“电话尚未发明”的时代。 在没有电话的世界里:如果节目想让选手“打电话”求助朋友,就必须为每一位求助的朋友进行…

    2025年11月25日
    12100
  • 智源Emu3登Nature:统一多模态的“世界模型”路线如何颠覆AI未来?

    一场押注AI未来的技术豪赌。 北京时间1月29日,北京智源人工智能研究院推出的多模态大模型“悟界·Emu”登上Nature正刊。这是继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇围绕多模态大模型路线的Nature论文。 Nature编辑在点评中指出:“Emu3仅基于‘预测下一个token’实现了大规模文本、图像和视频的统一学习,…

    2026年2月1日
    15700