数学界著名的“悬案簿”——Kourovka Notebook,如今迎来了AI的突破性进展。
群论领域一个困扰学界数十年的问题(第21.10号),被牛津大学数学家 Marc Lackenby 借助谷歌的新系统成功攻克。
有趣的是,AI首次提供的证明是错误的,但系统中的审查Agent敏锐地发现了其中的漏洞。
Lackenby在发现这个问题后,瞬间意识到:“等等,我知道该如何填补这个缺口。”
于是,通过和AI的反复协作与配合,Lackenby最终成功解开了这道数学难题。
这套人机协作的系统,正是 谷歌DeepMind 最新发布的 “AI Co-Mathematician”(AI联合数学家)。

在最难的数学AI基准测试 FrontierMath Tier 4 上,它拿下了 48% 的成绩,刷新了SOTA(当前最优水平)。
这一成绩甚至超越了GPT-5.5 Pro (39.6%) 和GPT-5.4 Pro (37.5%)。

近几个月来,不少数学难题(例如接连几个Erdős问题)都是借助GPT解决的。
现在,谷歌也重新加入了这场竞赛。

“AI联合数学家”,究竟是何方神圣?
“AI联合数学家”并非一个简单的问答模型,而是一个异步、有状态的工作空间。
其顶层有一个“项目协调者”Agent负责统筹全局,拆解任务,并调度多条研究线并行推进。

当数学家上传一篇论文或提出一个研究方向后,协调者不会立刻给出答案,而是先与用户进行对话,像真正的合作伙伴一样帮助对方精炼问题。

之后,它会将任务分发到多条并行的工作流中:一条负责文献检索,一条搭建计算框架,一条尝试证明策略。
每条工作流都有自己的协调Agent,它们异步运行,互不阻塞。用户可以随时介入、引导或接管。

如果某个Agent卡住了,它也会主动在聊天窗口中求助,而不是沉默地重启。
一个特别值得注意的点在于:它对失败的态度。
系统会持久化追踪所有失败的假说,不会将其丢弃,而是作为第一等的研究产出保存下来。

论文中提到,在数学研究中,知道什么行不通,往往与知道什么行得通同等重要。
“AI联合数学家”会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些“负空间”不会被丢弃,反而会成为后续探索的上下文。
它的产出不是一段聊天记录或一篇未经验证的草稿,而是带有边际注释和来源溯源的LaTeX文档——这完全契合了数学家社群的工作习惯。
“AI联合数学家”的意义何在?论文中有一段非常精妙的比喻:
软件工程领域已经有了Claude Code、Cursor这类AI编码环境,它们提供了持续迭代、版本控制、测试验证的完整工作流。
但数学家此前一直缺少一个等价的编排层。
“AI联合数学家”正是试图填补这个空白。
它的定位,与DeepMind上一代系统 AlphaEvolve 截然不同。
AlphaEvolve更像一个自主搜索引擎:你把问题扔进去,它进化出一个更好的算法,而人基本不在循环之中。
而“AI联合数学家”要求数学家始终处于回路中,系统在最适合的时机向人类提问,而不是替人类完成所有事情。
刷新最难数学AI基准SOTA
在基准测试方面,“AI联合数学家”也交出了亮眼的成绩单:
它刷新了最难的数学AI基准 FrontierMath Tier 4 的SOTA,取得了 48% 的准确率。

FrontierMath是由 Epoch AI 开发的数学基准测试,包含350道原创高难度题目,覆盖了现代数学的各大分支。
其中Tier 4只有50道题,被Epoch AI描述为“其中一些问题可能数十年内AI都无法攻克”,人类专家解决一道通常需要数天时间。
“AI联合数学家”在48道非公开题中答对了23道,准确率为48%。

此前,GPT-5.5 Pro在Tier 4上取得了39.6%,GPT-5.4 Pro是37.5%,而Claude Opus 4.6/4.7则双双停留在22.9%。
相比之下,“AI联合数学家”将最高分提升了近10个百分点。

值得注意的是,它的底层基座模型Gemini 3.1 Pro,单独进行这项测试时只拿到了19%。
从19%到48%,这29个百分点的飞跃完全来自系统层面的编排——包括并行调查分支、强制审查循环、文献检索工具以及持久化代码执行基础设施。
而且,其中有3道题是此前所有系统都未能答对的新题。
**

△**内部100题研究级数学基准测试中的准确率得分
在基准测试之外,论文中还提到,已有三位数学家用它来解决真实问题:
牛津大学数学家 Marc Lackenby 解决了Kourovka Notebook第21.10号问题(群论)。
审稿Agent首先发现了AI初稿中的一个漏洞,Lackenby意识到自己知道如何填补这个缺口,最终诞生了论文。
数学家 Semon Rezchikov 在哈密顿系统中,向系统抛出一个技术性子问题,并收到了一个关键引理。
他的评价是“其他AI系统在同一个prompt上全部失败”,而且从美学角度看,这是他使用过的所有模型中证明风格最好的一个。
还有 Gergely Bérczi,获得了关于Stirling系数对称幂表示的猜想证明。
此外,论文也坦诚地指出了两个失败模式。
第一种叫“讨好审稿人偏差”:Agent会不断改写有缺陷的论证,直到AI审稿人不再能发现错误——但漏洞其实依然存在。
第二种是“死亡螺旋”:当迭代评审过程未能达成共识时,Agent们会陷入无限的审稿循环,推理逐渐退化为幻觉。
另外还有一个结构性问题:当AI能在几分钟内生成一篇20页的证明草稿时,人类同行评审仍需要数天时间,这对依赖志愿者的学术评审体系会形成系统性压力。
而且,虽然AI非常擅长逻辑核验,能发现代数错误或找出缺失的引用文献,但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。
如果过度依赖AI评审,可能会让人类定性判断被边缘化。
当然,在48%这个成绩上,论文也坦诚披露了评估差异。
48%的得分是在特殊条件下取得的——每道题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI的标准评估框架并不完全可比。
团队背景
“AI联合数学家”背后共有18位作者,有几个名字值得单独提及。
第一作者兼通讯作者 Daniel Zheng,Google DeepMind研究工程师,研究方向是编程语言与机器学习的交叉。

在2024年AlphaProof获得IMO银牌的那个项目里,他和Alex Davies共同主导了非正式系统 (包括最终答案判定模块) 的开发。
Alex Davies,同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者,是这条技术路线最重要的连接者之一。

通讯作者 Pushmeet Kohli,Google DeepMind科学副总裁兼Google Cloud首席科学家,主导了AlphaFold(诺奖级成果)、AlphaProof、AlphaEvolve等一系列系统。

这篇论文是他带领的团队在AI for Math路线上的最新一步。
另一位通讯作者 Daniel M. Roy,多伦多大学统计系教授,研究横跨机器学习、数理统计和理论计算机科学。

2025年底从加拿大Vector Institute研究主任职位卸任,2026年1月以访问研究员身份加入DeepMind伦敦。他拥有三个MIT学位。
Fernanda Viégas 和 Martin Wattenberg 是PAIR (People+AI Research) 团队的共同创始人,同时也是哈佛计算机科学教授,专注于AI可解释性与人机交互。


他们负责AI与数学家协作系统的用户交互与界面层——这也解释了为何该系统在“如何让数学家愿意使用它”上投入了大量精力。
值得留意的是,数学家Marc Lackenby并非临时找来测试的“外部专家”。

在其牛津大学个人主页的论文列表中,可以追溯到2021年,Lackenby就已与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队长期合作的伙伴。

One More Thing
放在更宏观的背景下看,这是谷歌在AI for Math方向上已经探索数年的路线。
2024年,AlphaProof利用强化学习进行形式化数学推理,在IMO中达到银牌水平。
2025年,Gemini Deep Think在当年IMO中达到金牌水准,六道题目答对五道。
AlphaEvolve则走的是另一条路径:自主发现新算法,在50多个开放数学问题上改进了20%的已知最优解。
“AI联合数学家”与这些系统定位不同,它并非更强的问题求解器,而更偏向于面向研究者日常工作流的协作工具。
AlphaEvolve适合“给我一个更好的算法”,而“AI联合数学家”则适合“陪我研究这个方向几个星期”。
目前,“AI联合数学家”仍处于限量发布阶段。Pushmeet Kohli表示,目标是未来开发产品,向更广泛的用户开放这一范式。
它还不是所有数学家都能使用的工具,但它证明了一件事:
AI与数学家之间的协作,可以比“问答”复杂得多,也有效得多。
论文地址:
https://arxiv.org/abs/2605.06651
参考链接:
[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33833

