AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

数学界著名的“悬案簿”——Kourovka Notebook，如今迎来了AI的突破性进展。

群论领域一个困扰学界数十年的问题（第21.10号），被牛津大学数学家 Marc Lackenby 借助谷歌的新系统成功攻克。

有趣的是，AI首次提供的证明是错误的，但系统中的审查Agent敏锐地发现了其中的漏洞。

Lackenby在发现这个问题后，瞬间意识到：“等等，我知道该如何填补这个缺口。”

于是，通过和AI的反复协作与配合，Lackenby最终成功解开了这道数学难题。

这套人机协作的系统，正是 谷歌DeepMind 最新发布的 “AI Co-Mathematician”（AI联合数学家）。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

在最难的数学AI基准测试 FrontierMath Tier 4 上，它拿下了 48% 的成绩，刷新了SOTA（当前最优水平）。

这一成绩甚至超越了GPT-5.5 Pro （39.6%） 和GPT-5.4 Pro （37.5%）。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

近几个月来，不少数学难题（例如接连几个Erdős问题）都是借助GPT解决的。

现在，谷歌也重新加入了这场竞赛。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

“AI联合数学家”，究竟是何方神圣？

“AI联合数学家”并非一个简单的问答模型，而是一个异步、有状态的工作空间。

其顶层有一个“项目协调者”Agent负责统筹全局，拆解任务，并调度多条研究线并行推进。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

当数学家上传一篇论文或提出一个研究方向后，协调者不会立刻给出答案，而是先与用户进行对话，像真正的合作伙伴一样帮助对方精炼问题。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

之后，它会将任务分发到多条并行的工作流中：一条负责文献检索，一条搭建计算框架，一条尝试证明策略。

每条工作流都有自己的协调Agent，它们异步运行，互不阻塞。用户可以随时介入、引导或接管。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

如果某个Agent卡住了，它也会主动在聊天窗口中求助，而不是沉默地重启。

一个特别值得注意的点在于：它对失败的态度。

系统会持久化追踪所有失败的假说，不会将其丢弃，而是作为第一等的研究产出保存下来。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

论文中提到，在数学研究中，知道什么行不通，往往与知道什么行得通同等重要。

“AI联合数学家”会持久化追踪每一条死胡同、每一个被否定的假设、每一次审稿Agent发现的漏洞。这些“负空间”不会被丢弃，反而会成为后续探索的上下文。

它的产出不是一段聊天记录或一篇未经验证的草稿，而是带有边际注释和来源溯源的LaTeX文档——这完全契合了数学家社群的工作习惯。

“AI联合数学家”的意义何在？论文中有一段非常精妙的比喻：

软件工程领域已经有了Claude Code、Cursor这类AI编码环境，它们提供了持续迭代、版本控制、测试验证的完整工作流。
但数学家此前一直缺少一个等价的编排层。

“AI联合数学家”正是试图填补这个空白。

它的定位，与DeepMind上一代系统 AlphaEvolve 截然不同。

AlphaEvolve更像一个自主搜索引擎：你把问题扔进去，它进化出一个更好的算法，而人基本不在循环之中。

而“AI联合数学家”要求数学家始终处于回路中，系统在最适合的时机向人类提问，而不是替人类完成所有事情。

刷新最难数学AI基准SOTA

在基准测试方面，“AI联合数学家”也交出了亮眼的成绩单：

它刷新了最难的数学AI基准 FrontierMath Tier 4 的SOTA，取得了 48% 的准确率。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

FrontierMath是由 Epoch AI 开发的数学基准测试，包含350道原创高难度题目，覆盖了现代数学的各大分支。

其中Tier 4只有50道题，被Epoch AI描述为“其中一些问题可能数十年内AI都无法攻克”，人类专家解决一道通常需要数天时间。

“AI联合数学家”在48道非公开题中答对了23道，准确率为48%。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

此前，GPT-5.5 Pro在Tier 4上取得了39.6%，GPT-5.4 Pro是37.5%，而Claude Opus 4.6/4.7则双双停留在22.9%。

相比之下，“AI联合数学家”将最高分提升了近10个百分点。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

值得注意的是，它的底层基座模型Gemini 3.1 Pro，单独进行这项测试时只拿到了19%。

从19%到48%，这29个百分点的飞跃完全来自系统层面的编排——包括并行调查分支、强制审查循环、文献检索工具以及持久化代码执行基础设施。

而且，其中有3道题是此前所有系统都未能答对的新题。

**

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

△**内部100题研究级数学基准测试中的准确率得分

在基准测试之外，论文中还提到，已有三位数学家用它来解决真实问题：

牛津大学数学家 Marc Lackenby 解决了Kourovka Notebook第21.10号问题（群论）。

审稿Agent首先发现了AI初稿中的一个漏洞，Lackenby意识到自己知道如何填补这个缺口，最终诞生了论文。

数学家 Semon Rezchikov 在哈密顿系统中，向系统抛出一个技术性子问题，并收到了一个关键引理。

他的评价是“其他AI系统在同一个prompt上全部失败”，而且从美学角度看，这是他使用过的所有模型中证明风格最好的一个。

还有 Gergely Bérczi，获得了关于Stirling系数对称幂表示的猜想证明。

此外，论文也坦诚地指出了两个失败模式。

第一种叫“讨好审稿人偏差”：Agent会不断改写有缺陷的论证，直到AI审稿人不再能发现错误——但漏洞其实依然存在。

第二种是“死亡螺旋”：当迭代评审过程未能达成共识时，Agent们会陷入无限的审稿循环，推理逐渐退化为幻觉。

另外还有一个结构性问题：当AI能在几分钟内生成一篇20页的证明草稿时，人类同行评审仍需要数天时间，这对依赖志愿者的学术评审体系会形成系统性压力。

而且，虽然AI非常擅长逻辑核验，能发现代数错误或找出缺失的引用文献，但它们依然缺乏判断一篇论文的优雅性、深度或真正数学价值所需的整体直觉。

如果过度依赖AI评审，可能会让人类定性判断被边缘化。

当然，在48%这个成绩上，论文也坦诚披露了评估差异。

48%的得分是在特殊条件下取得的——每道题给了48小时、没有token限制、使用团队自己的基础设施。这与Epoch AI的标准评估框架并不完全可比。

团队背景

“AI联合数学家”背后共有18位作者，有几个名字值得单独提及。

第一作者兼通讯作者 Daniel Zheng，Google DeepMind研究工程师，研究方向是编程语言与机器学习的交叉。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

在2024年AlphaProof获得IMO银牌的那个项目里，他和Alex Davies共同主导了非正式系统 （包括最终答案判定模块） 的开发。

Alex Davies，同样是从AlphaProof到AlphaEvolve再到AI联合数学家的连续参与者，是这条技术路线最重要的连接者之一。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

通讯作者 Pushmeet Kohli，Google DeepMind科学副总裁兼Google Cloud首席科学家，主导了AlphaFold（诺奖级成果）、AlphaProof、AlphaEvolve等一系列系统。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

这篇论文是他带领的团队在AI for Math路线上的最新一步。

另一位通讯作者 Daniel M. Roy，多伦多大学统计系教授，研究横跨机器学习、数理统计和理论计算机科学。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

2025年底从加拿大Vector Institute研究主任职位卸任，2026年1月以访问研究员身份加入DeepMind伦敦。他拥有三个MIT学位。

Fernanda Viégas 和 Martin Wattenberg 是PAIR （People+AI Research） 团队的共同创始人，同时也是哈佛计算机科学教授，专注于AI可解释性与人机交互。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

他们负责AI与数学家协作系统的用户交互与界面层——这也解释了为何该系统在“如何让数学家愿意使用它”上投入了大量精力。

值得留意的是，数学家Marc Lackenby并非临时找来测试的“外部专家”。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

在其牛津大学个人主页的论文列表中，可以追溯到2021年，Lackenby就已与Zheng、Davies等人合作发表过Nature论文。他是DeepMind数学AI团队长期合作的伙伴。

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

One More Thing

放在更宏观的背景下看，这是谷歌在AI for Math方向上已经探索数年的路线。

2024年，AlphaProof利用强化学习进行形式化数学推理，在IMO中达到银牌水平。

2025年，Gemini Deep Think在当年IMO中达到金牌水准，六道题目答对五道。

AlphaEvolve则走的是另一条路径：自主发现新算法，在50多个开放数学问题上改进了20%的已知最优解。

“AI联合数学家”与这些系统定位不同，它并非更强的问题求解器，而更偏向于面向研究者日常工作流的协作工具。

AlphaEvolve适合“给我一个更好的算法”，而“AI联合数学家”则适合“陪我研究这个方向几个星期”。

目前，“AI联合数学家”仍处于限量发布阶段。Pushmeet Kohli表示，目标是未来开发产品，向更广泛的用户开放这一范式。

它还不是所有数学家都能使用的工具，但它证明了一件事：

AI与数学家之间的协作，可以比“问答”复杂得多，也有效得多。

论文地址：
https://arxiv.org/abs/2605.06651

参考链接：
[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33833

AI联合数学家破解群论悬案：谷歌新系统让数学难题无处遁形

“AI联合数学家”，究竟是何方神圣？

刷新最难数学AI基准SOTA

**

团队背景

One More Thing

相关推荐

从Vibe Coding到Wish Coding：蚂蚁灵光App如何用意图编程重构软件生产关系，让普通人跳过代码直接交付可用软件

ClaudeCode 自述构建历程：九成代码由AI生成，三天打造核心代理，开发者角色迎来新变革

4款惊艳AI开源项目盘点：从图表重建到桌面助手，解锁智能新体验

阿里万相2.6发布：国内首个声画一致角色定制模型，将专业影棚搬入手机

用Python写GPU汇编？pyptx在Blackwell上实现1240 TFLOPS，性能超越cuBLAS