Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

谷歌近期发布了一项新的研究进展:其研究团队利用 Gemini 模型进行了一次系统性的数学攻关实验,目标直指著名的 Erdős Problems 数据库中约 700 个仍被标记为“开放”(未解决)的猜想。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

实验成果显著:Gemini 在这批问题中成功推进了 13 个问题的解决进程。其中,5 个是由模型自主提出的全新解法,另外 8 个则是模型从文献中挖掘出了早已存在、但此前被遗漏的解答。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

  • 论文标题:Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems
  • 论文链接:https://arxiv.org/pdf/2601.22401

Erdős Problems 数据库以 20 世纪最多产的数学家之一保罗·埃尔德什(Paul Erdős)的名字命名,他留下了大量涵盖数论、组合数学、图论等领域的未解猜想。2023 年,数学家托马斯·布鲁姆(Thomas Bloom)推出了 ErdosProblems.com 网站,旨在集中整理并跟踪这些猜想的研究进展。目前,该数据库共收录 1179 个问题,其中 483 个(41%)被归类为已解决。

然而,数据库中标记为“开放”的问题,并不意味着它们真的未被解决,而是指至少有一位专业数学家尝试通过网络搜索寻找已发表的解决方案,但未能成功。

事实证明,许多问题并非“未解决”,而是答案被淹没在浩如烟海的文献中。去年 10 月,OpenAI 曾宣布其模型在该网站上发现了 10 个标记为“开放”的问题,但它们的答案其实已经存在于相关文献中。这一发现使布鲁姆的数据库受到广泛关注,并促使陶哲轩近期创建了一个社区维基,专门跟踪人工智能辅助解决 Erdős 问题的相关动态。

如今,谷歌的研究将 Erdős 问题的解决又向前推进了一步。但研究团队也坦言,这并不意味着 AI 已经能够“自动进行数学研究”,其背后的复杂工作和巨大成本远超普通人的想象。

研究方法

研究团队在 2025 年 12 月 2 日至 9 日期间,部署了一个基于 Gemini Deep Think 的定制数学研究智能体 Aletheia,对布鲁姆数据库中当时仍标记为“开放”的约 700 个 Erdős 问题进行了半自动探索。Aletheia 内置自然语言验证器,用于在大规模生成后先进行第一轮筛选,将候选问题从 700 个快速收敛到 212 个“看起来可能正确”的回答。

接下来进入人工评估阶段。研究团队首先由非该领域专家的数学家进行快速过滤,在可控时间内剔除明显错误的解答,从而将候选规模压缩到 27 个,再交由内部领域专家逐一严格审查;当解法的正确性明确但新颖性存疑时,还会咨询外部专家核对文献。

最终统计显示,在可明确判定的约 200 个候选解中,137 个(68.5%)存在根本性错误;63 个(31.5%)在形式上成立,但其中只有 13 个(6.5%)真正回答了 Erdős 原本想问的问题。其余 50 个虽然“技术上正确”,却因为误读题意而导致数学意义有限,作者计划对这些问题提出更严谨的修订表述;此外还有 12 个回答因问题本身开放或表述不清而被标记为“歧义”。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本
Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

根据陶哲轩的建议,作者着重列出了上述数据以保证透明度。这也是为了更完整地呈现 AI 辅助数学研究的真实成本:除了少数成功案例外,大量时间会消耗在核验、纠错、排查细微错误,以及检索文献以排除“无意重复”上。

这表明,业内广为流传的“AI 正在加速科学”的论断有一定片面性:人们通常只展示少数成功案例,强调 AI 在某个任务上比人类更快,从而声称 AI“加速”了这一结果;但这类叙事很少把大量失败的尝试纳入计算。

更具挑战性的是最后一步——确认解答是否已在文献中出现,以及是否真正契合 Erdős 的原始意图。许多问题的困难不在于数学推导,而在于题面细节的抄录误差、遗漏,以及符号与定义约定的歧义;模型若不了解布鲁姆网站的定义惯例,往往会在多个“各自合理”的解释之间混淆。

作者指出,在深入进行文献核查与语义对齐后,“真正有意义的正确解”数量会显著下降,这也提醒未来的 AI 数学发现工作必须对题意一致性与文献溯源保持高度谨慎。

关键结果

作者将 13 个有意义的正确结果分为四类:

  1. AI 自主解决:对于这些问题,Aletheia 找到了首个正确的解决方案,且解决方案具有实质性的数学意义。其中包括 Erdős-652 和 Erdős-1051。需要说明的是,Erdős-652 的解决是通过直接引用现有文献中的结果实现的。
  2. 部分由 AI 解决:对于这些包含多个子问题的复杂问题,Aletheia 找到了其中一个子问题的首个正确解决方案。其中包括 Erdős-654、Erdős-935 和 Erdős-1040。
  3. 独立重发现:对于这些问题,Aletheia 找到了正确的解决方案,但人类审核者随后发现文献中已存在独立的解决方案。其中包括 Erdős-397、Erdős-659 和 Erdős-1089。这些解决方案似乎是模型独立重发现的:作者仔细检查了 Aletheia 的推理过程日志,确保该解决方案并非直接从文献中提取。当然,该解决方案也有可能是通过中间来源或预训练过程间接从文献中获取的。这凸显了 AI 生成数学内容所伴随的一个新风险:模型可能会再现预训练过程中习得的文献知识,却不注明来源,即存在“潜意识抄袭”的风险。
  4. 文献识别:对于这些问题,尽管在模型部署时布鲁姆网站将其标记为“开放”,但 Aletheia 识别出文献中已明确存在相关解决方案。其中包括 Erdős-333、Erdős-591、Erdős-705、Erdős-992 和 Erdős-1105。

Gemini突破数学难题:半自动攻克13个Erdős猜想,揭示AI研究真实成本

需要明确的是,研究团队并未声称后两类结果具有创新性。上述提到的 5 个自主生成的解决方案分别对应 Erdős-652、Erdős-654、Erdős-935、Erdős-1040 和 Erdős-1051。根据专家的评估,这 5 个解决方案均未达到学术论文的水平。事实上,其中一些解决方案仅相当于研究生习题的难度(基于现有文献)。

他们初步认为,Aletheia 对 Erdős-1051 的解决方案是 AI 系统自主解决具有一定普遍性(温和)数学意义的重要开放 Erdős 问题的早期案例——虽然存在关于密切相关问题的过往文献,但这些文献均未完全解决 Erdős-1051。

此外,与许多之前讨论的案例不同,作者认为 Aletheia 的解决方案并非直接受任何先前人类论证的启发,但该方案确实采用了经典思路:转向级数尾部并应用马勒准则(Mahler’s criterion)。在 Aletheia 与人类数学家以及 Gemini Deep Think 的协作下,Erdős-1051 的解决方案得到了进一步推广,并形成了研究论文。

研究意义

研究结果表明,Erdős 问题中存在一些“低垂的果实”,而 AI 已发展到能够摘取这些果实的水平。尽管这为 AI 研究人员提供了一种新的、有趣的数学基准,但作者提醒人们不应过度夸大其数学意义。本文解决的所有开放问题,任何相关领域的专家都能轻松完成。另一方面,人类专家的时间有限。如果能够提高 AI 的可靠性,它已展现出加速数学发现中注意力瓶颈环节的潜力。

在本文的案例研究中,作者遇到了一些最初未预料到的困难。绝大多数技术正确的自主生成解决方案都源于对问题陈述的误解或解读缺陷,而诊断这些问题有时需要花费大量精力。

此外,人类专家面临的最具挑战性的步骤并非验证解决方案的正确性,而是确定这些解决方案是否已存在于文献中。随着人工智能生成数学内容的增多,学术界必须警惕「潜意识抄袭」,即 AI 再现训练过程中习得的文献知识,却未给予适当引用。需要注意的是,形式化验证无法解决这些问题。

尽管 AI 自主解决 Erdős 问题的尝试取得了一定成功,但也引发了误导性的炒作和彻头彻尾的虚假信息,并在社交媒体平台上被放大,这对数学界造成了损害。除了 Erdős 问题,未来可能还会有许多其他数学猜想列表成为(半)自主研究的目标。作者恳请相关研究人员关注本文提出的这些问题。

更多信息请参考原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20139

(0)
上一篇 2026年2月3日 下午10:02
下一篇 2026年2月4日 上午12:03

相关推荐

  • GPT-5.4震撼发布:首个原生支持电脑操作的通用模型,能力大一统且更便宜更快

    GPT-5.4正式发布,标志着AI模型向“能力大一统”迈出了关键一步。OpenAI首次将推理、编程、计算机原生交互、深度网页搜索以及百万级上下文窗口等核心能力,深度融合于单一模型之中。 官方特别强调,这种集成并未以牺牲任何单项性能为代价。在多个关键基准测试中,GPT-5.4在相关领域依然保持领先地位。 此次发布最引人注目的,是GPT-5.4成为了首个原生支持…

    2026年3月6日
    45200
  • 解放双手!Happy Coder:用手机远程监控与操控AI编程助手

    使用 Claude Code 或 Codex 辅助编程能显著提升开发效率,尤其对于非技术背景的用户,可以快速将想法转化为产品。 这如同拥有了一位专家级别的程序员同事,并且这位同事无需休息,能够 24 小时不间断工作。 然而,它存在一个明显的不足:在工作过程中经常需要与我们确认需求。如果我们不在电脑前,它便会暂停工作,直到我们返回并确认后才能继续。 为此,我在…

    2026年1月24日
    91700
  • 无需训练即可解锁4D感知:VGGT4D如何从静态3D模型中挖掘动态线索

    从静态3D到动态4D的演进挑战 以Visual Geometry Transformer(VGGT)和DUSt3R为代表的3D基础模型在静态场景重建领域已展现出卓越性能。然而,当面对包含移动物体(如行人、车辆)的动态4D场景时,这些模型的性能往往显著下降。动态物体的运动不仅会干扰背景几何建模,还会导致严重的相机位姿漂移问题。 当前解决方案主要面临两大挑战:一…

    2025年12月19日
    22100
  • 搜索革命:从信息检索到AI协同伙伴——深度解析百度猎户座如何重塑人机交互范式

    在数字信息爆炸式增长的今天,传统搜索引擎的局限性日益凸显。用户不再满足于简单的关键词匹配和网页链接列表,而是渴望更智能、更人性化的信息获取体验。这一需求推动着搜索技术从“检索工具”向“智能伙伴”的深刻转型。百度最新推出的猎户座系统,正是这一转型浪潮中的标志性产物,它基于多智能体框架,整合了百度25年的搜索技术积累、行业专业能力和MCP服务生态,旨在构建一个能…

    2025年11月14日
    22000
  • RunAnywhere:让大模型在手机端实现完全本地化推理,隐私与性能兼得

    今天介绍一个可以在手机本地运行的大模型项目。基于它,开发者成功在iPhone 16 Pro Max上部署了Llama 3.2 3B模型,实现了端到端的本地工具调用。 完全本地化的AI处理 这个项目最大的亮点是所有AI处理都在设备本地完成。LLM推理、工具调用决策、响应解析全部在iPhone上进行,只有在需要外部数据时才调用Foursquare API获取餐厅…

    2026年1月27日
    29700