AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

数学界著名的“悬案簿”——Kourovka Notebook,如今迎来了AI的突破性进展。

群论领域一个困扰学界数十年的问题(第21.10号),被牛津大学数学家 Marc Lackenby 借助谷歌的新系统成功攻克。

有趣的是,AI首次提供的证明是错误的,但系统中的审查Agent敏锐地发现了其中的漏洞。

Lackenby在发现这个问题后,瞬间意识到:“等等,我知道该如何填补这个缺口。”

于是,通过和AI的反复协作与配合,Lackenby最终成功解开了这道数学难题。

这套人机协作的系统,正是 谷歌DeepMind 最新发布的 AI Co-Mathematician”(AI联合数学家)

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

在最难的数学AI基准测试 FrontierMath Tier 4 上,它拿下了 48% 的成绩,刷新了SOTA(当前最优水平)。

这一成绩甚至超越了GPT-5.5 Pro (39.6%) 和GPT-5.4 Pro (37.5%)

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

近几个月来,不少数学难题(例如接连几个Erdős问题)都是借助GPT解决的。

现在,谷歌也重新加入了这场竞赛。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

“AI联合数学家”,究竟是何方神圣?

“AI联合数学家”并非一个简单的问答模型,而是一个异步、有状态的工作空间

其顶层有一个“项目协调者”Agent负责统筹全局,拆解任务,并调度多条研究线并行推进。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

当数学家上传一篇论文或提出一个研究方向后,协调者不会立刻给出答案,而是先与用户进行对话,像真正的合作伙伴一样帮助对方精炼问题。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

之后,它会将任务分发到多条并行的工作流中:一条负责文献检索,一条搭建计算框架,一条尝试证明策略。

每条工作流都有自己的协调Agent,它们异步运行,互不阻塞。用户可以随时介入、引导或接管。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

如果某个Agent卡住了,它也会主动在聊天窗口中求助,而不是沉默地重启。

一个特别值得注意的点在于:它对失败的态度

系统会持久化追踪所有失败的假说,不会将其丢弃,而是作为第一等的研究产出保存下来。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

论文中提到,在数学研究中,知道什么行不通,往往与知道什么行得通同等重要

“AI联合数学家”会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些“负空间”不会被丢弃,反而会成为后续探索的上下文。

它的产出不是一段聊天记录或一篇未经验证的草稿,而是带有边际注释和来源溯源的LaTeX文档——这完全契合了数学家社群的工作习惯。

“AI联合数学家”的意义何在?论文中有一段非常精妙的比喻:

软件工程领域已经有了Claude Code、Cursor这类AI编码环境,它们提供了持续迭代、版本控制、测试验证的完整工作流。
但数学家此前一直缺少一个等价的编排层。

“AI联合数学家”正是试图填补这个空白。

它的定位,与DeepMind上一代系统 AlphaEvolve 截然不同。

AlphaEvolve更像一个自主搜索引擎:你把问题扔进去,它进化出一个更好的算法,而人基本不在循环之中。

而“AI联合数学家”要求数学家始终处于回路中,系统在最适合的时机向人类提问,而不是替人类完成所有事情。

刷新最难数学AI基准SOTA

在基准测试方面,“AI联合数学家”也交出了亮眼的成绩单:

它刷新了最难的数学AI基准 FrontierMath Tier 4 的SOTA,取得了 48% 的准确率。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

FrontierMath是由 Epoch AI 开发的数学基准测试,包含350道原创高难度题目,覆盖了现代数学的各大分支。

其中Tier 4只有50道题,被Epoch AI描述为“其中一些问题可能数十年内AI都无法攻克”,人类专家解决一道通常需要数天时间。

“AI联合数学家”在48道非公开题中答对了23道,准确率为48%

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

此前,GPT-5.5 Pro在Tier 4上取得了39.6%,GPT-5.4 Pro是37.5%,而Claude Opus 4.6/4.7则双双停留在22.9%。

相比之下,“AI联合数学家”将最高分提升了近10个百分点。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

值得注意的是,它的底层基座模型Gemini 3.1 Pro,单独进行这项测试时只拿到了19%。

从19%到48%,这29个百分点的飞跃完全来自系统层面的编排——包括并行调查分支、强制审查循环、文献检索工具以及持久化代码执行基础设施。

而且,其中有3道题是此前所有系统都未能答对的新题。

**

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

△**内部100题研究级数学基准测试中的准确率得分

在基准测试之外,论文中还提到,已有三位数学家用它来解决真实问题:

牛津大学数学家 Marc Lackenby 解决了Kourovka Notebook第21.10号问题(群论)。

审稿Agent首先发现了AI初稿中的一个漏洞,Lackenby意识到自己知道如何填补这个缺口,最终诞生了论文。

数学家 Semon Rezchikov 在哈密顿系统中,向系统抛出一个技术性子问题,并收到了一个关键引理。

他的评价是“其他AI系统在同一个prompt上全部失败”,而且从美学角度看,这是他使用过的所有模型中证明风格最好的一个。

还有 Gergely Bérczi,获得了关于Stirling系数对称幂表示的猜想证明。

此外,论文也坦诚地指出了两个失败模式。

第一种叫“讨好审稿人偏差”:Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实依然存在。

第二种是“死亡螺旋”:当迭代评审过程未能达成共识时,Agent们会陷入无限的审稿循环,推理逐渐退化为幻觉。

另外还有一个结构性问题:当AI能在几分钟内生成一篇20页的证明草稿时,人类同行评审仍需要数天时间,这对依赖志愿者的学术评审体系会形成系统性压力。

而且,虽然AI非常擅长逻辑核验,能发现代数错误或找出缺失的引用文献,但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。

如果过度依赖AI评审,可能会让人类定性判断被边缘化。

当然,在48%这个成绩上,论文也坦诚披露了评估差异。

48%的得分是在特殊条件下取得的——每道题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI的标准评估框架并不完全可比。

团队背景

“AI联合数学家”背后共有18位作者,有几个名字值得单独提及。

第一作者兼通讯作者 Daniel Zheng,Google DeepMind研究工程师,研究方向是编程语言与机器学习的交叉。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

在2024年AlphaProof获得IMO银牌的那个项目里,他和Alex Davies共同主导了非正式系统 (包括最终答案判定模块) 的开发。

Alex Davies,同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者,是这条技术路线最重要的连接者之一。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

通讯作者 Pushmeet Kohli,Google DeepMind科学副总裁兼Google Cloud首席科学家,主导了AlphaFold(诺奖级成果)、AlphaProof、AlphaEvolve等一系列系统。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

这篇论文是他带领的团队在AI for Math路线上的最新一步。

另一位通讯作者 Daniel M. Roy,多伦多大学统计系教授,研究横跨机器学习、数理统计和理论计算机科学。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

2025年底从加拿大Vector Institute研究主任职位卸任,2026年1月以访问研究员身份加入DeepMind伦敦。他拥有三个MIT学位。

Fernanda ViégasMartin Wattenberg 是PAIR (People+AI Research) 团队的共同创始人,同时也是哈佛计算机科学教授,专注于AI可解释性与人机交互。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

他们负责AI与数学家协作系统的用户交互与界面层——这也解释了为何该系统在“如何让数学家愿意使用它”上投入了大量精力。

值得留意的是,数学家Marc Lackenby并非临时找来测试的“外部专家”。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

在其牛津大学个人主页的论文列表中,可以追溯到2021年,Lackenby就已与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队长期合作的伙伴。

AI联合数学家破解群论悬案:谷歌新系统让数学难题无处遁形

One More Thing

放在更宏观的背景下看,这是谷歌在AI for Math方向上已经探索数年的路线。

2024年,AlphaProof利用强化学习进行形式化数学推理,在IMO中达到银牌水平。

2025年,Gemini Deep Think在当年IMO中达到金牌水准,六道题目答对五道。

AlphaEvolve则走的是另一条路径:自主发现新算法,在50多个开放数学问题上改进了20%的已知最优解。

“AI联合数学家”与这些系统定位不同,它并非更强的问题求解器,而更偏向于面向研究者日常工作流的协作工具。

AlphaEvolve适合“给我一个更好的算法”,而“AI联合数学家”则适合“陪我研究这个方向几个星期”。

目前,“AI联合数学家”仍处于限量发布阶段。Pushmeet Kohli表示,目标是未来开发产品,向更广泛的用户开放这一范式。

它还不是所有数学家都能使用的工具,但它证明了一件事:

AI与数学家之间的协作,可以比“问答”复杂得多,也有效得多。

论文地址:
https://arxiv.org/abs/2605.06651

参考链接:
[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33833

(0)
上一篇 4天前
下一篇 4天前

相关推荐