菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

如果AI的数学水平继续按目前速度发展,我们(数学研究者)很快会面临一场危机。

数学最高荣誉——菲尔兹奖得主 Timothy Gowers,在亲身体验了最新版ChatGPT 5.5 Pro后,向学生们发出了紧急警告。

对博士生的影响,尤为紧迫。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

事情是这样的。这位剑桥大学的数学权威,最近获得了珍贵的5.5 Pro“快速通道”权限。

拿到这个新工具后,Gowers随手将几道加法数论领域的公开难题抛给了AI,想试探一下它的实力。

但接下来发生的一切,完全超出了他的预期。

在不到两小时的时间里,小GPT独立完成了一项他认为“完全有资格写进博士论文”的数学成果。

整个过程,Gowers教授没有提供任何数学层面的指导。

他唯一需要做的事情就是:

嗯,你这个想法不错,你展开试试?

可以啊,能不能帮我写成LaTeX预印本格式?

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

这一刻,Gowers真切感受到了当代年轻人那种令人窒息的焦虑——

当AI已经能独立攻克这种难度的题目,正在攻读博士学位的年轻数学家们,该何去何从?

连他自己也给不出清晰的答案。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

他唯一能做的,就是尽可能快地为学生们找到新的出路。

在AGI真正到来之前,重新定义数学学习的核心价值,然后迅速转向。

对学生负有责任的数学系,应该紧急为此做好准备。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

但先别急着焦虑,因为另一位菲尔兹奖得主——陶哲轩,有很多话想跟大家说。

毕竟,他可以说是AI与数学交叉领域的先锋了。前段时间,他还联合创立了一个名为AI4S的组织,旨在帮助年轻人寻找AI时代的新出路。

无独有偶,陶哲轩刚刚也分享了自己的最新感悟:

数学证明的“消化”问题,才是AI时代人类数学家最不可替代的价值所在。

两位当世最顶尖的数学家,面对同一场风暴,给出了不同角度的思考。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

不过,相比陶哲轩,Gowers这次的反应或许更有看点。

毕竟陶哲轩已经是“AI老玩家”了(笑),相对比较淡定。

Gowers这次是真的有点“瘫软”了(开玩笑的),直接怒发了一篇超级长文。

真的很长很长……

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

以下是整理好的、更方便大家阅读的版本。

Enjoy。

菲尔兹奖得主的ChatGPT 5.5 Pro数学实验

故事的起点,其实是一篇很有意思的论文。

加法数论大佬 Mel Nathanson 写了一篇论文,里面列了一堆关于整数集合求和性质的公开问题。

这类问题的特点是方向明确、难度适中、数量众多,原本是留给刚入门的博士生练手、冲击第一篇顶刊的黄金素材。

结果被Gowers拿来为难ChatGPT 5.5 Pro了。

他丢给AI的问题大概是这样的:

给定一个整数集合A,已知它有k个元素(|A|=k),也知道它的二重求和集(简单说就是集合里所有元素两两相加得到的新集合,记为2A)有多少个元素,那A的直径最小能是多少?

Nathanson自己已经证明了一个指数级的上界(2 ^k-1),但一直怀疑还能优化。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

ChatGPT 5.5 Pro思考了17分钟零5秒。

然后它给出一个二次上界的构造,而且是理论上最优的。

它的核心思路是使用Sidon集(一种求和集大小最大化的特殊集合)和等差数列做组合构造。

通俗点说,就像搭积木,AI选了两种特殊积木。

一种叫Sidon集,里面任意两个不同元素的和都不一样,能让求和集规模最大化。

另一种是咱们上学都学过的等差数列。把这两种积木巧妙组合起来,就搭出了满足条件的最小直径集合。

Nathanson原本的证明用了归纳法,本质上也在做类似的组合积木操作,但用的是2的幂次这种效率较低的Sidon集。

就像用大积木搭小房子,难免浪费空间,所以才得到了指数级的大直径。

ChatGPT 5.5 Pro则是直接换了一种已知的更高效Sidon集。

这种集合的直径是二次的(简单说就是k个元素的话,直径大概是k²级别),比指数级(2^k)小了不止一个数量级,相当于用精致的小积木精准搭房,空间利用率直接拉满。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

可能有朋友会说,这不就是把已有的数学工具重新拼了一下吗?

还真没错。

但Gowers自己也承认,相当多的人类数学研究,本质上也是在组合已有的知识和证明技巧。

关键在于,Nathanson本人没有想到这一步,而ChatGPT想到了

Gowers接着又问了一个相关的升级版问题——

把二重求和集换成限制求和集,也就是这个集合里的元素两两相加时,要求两个元素不能是同一个,其他条件不变,还能不能找到最小直径?

这个问题毫无悬念也被解决了。

然后他让ChatGPT把两个结果合并写成一篇学术笔记,47分钟后,一份标准的LaTeX预印本就出来了。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

然后事情开始变得更有意思。Gowers又上了难度,问了一般情形下k重求和集的直径问题。

这个问题要难得多,因为对于一般的k,我们甚至不完全知道哪些求和集大小是可以被实现的,连基本的构造框架都缺。

不过好在麻省理工学院(MIT)的学生Isaac Rajagopal已经做了开创性工作,他证明了h重求和集直径的指数级依赖关系。

Gowers想看看GPT 5.5 Pro能不能在Isaac的基础上做改进。没想到,AI直接上演了两连跳操作,还独创了k-解离集合构造

接下来发生的事,按时间线捋一下:

  • 第一轮,ChatGPT思考了16分41秒,基于解离集合的创新思路把上界从指数级改进到了亚指数级。
  • 第二轮,Gowers让它写成预印本,花了47分39秒。
  • 第三轮,Isaac本人看了,认为论证看起来是对的,而且论证逻辑严谨,k-解离集合的运用很巧妙。
  • 第四轮,Gowers贪心了,问ChatGPT能不能进一步推到多项式界。
  • 第五轮,ChatGPT思考了13分33秒,提出微调k-解离集合可以做到,但有几个技术细节需要验证。
  • 第六轮,Gowers让它自己验证,9分12秒后搞定核心卡点。
  • 第七轮,写成预印本,31分40秒。
  • 第八轮,Isaac再次审阅,判断结论基本成立。而且他特别指出,不只是逐行正确,在思路层面也是对的,也就是说ChatGPT确实贡献了新的想法

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

而整个过程,Gowers的数学输入为零。

他做的全部工作就是当一个项目经理(数学版)——

提出需求,确认方向,要求交付。

数学本身,全是ChatGPT在做。

AI提高了数学博士生入门门槛

这件事如果只是一个酷炫的demo,倒也还好。

但Gowers看到的是两个正在逼近的危机。

首先,一个很现实的问题是,这个AI搞出来的结果该怎么处理

如果是人类数学家做出来的,这完全够得上发表。

但现在主要工作是AI完成的——

arXiv已经明确拒绝AI生成内容,传统期刊显然也不会接受。

那它该放在哪?

Gowers自己提了一个设想,也许应该建一个专门的AI数学成果仓库,有一定的审核流程。

比如需要人类数学家确认正确性,或者经过形式化证明助手验证,但也不要让审核本身变成巨大的工作量。

坦率地讲,这个问题目前没有答案,所以现在这个成果就挂在Gowers的博客上,靠一个链接存在着。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

成果归属问题之外,才是Gowers真正焦虑的地方——

数学培养体系被釜底抽薪

训练博士生做研究,最经典的路径就是给新手一个难度适中的公开问题入门。

Nathanson论文里的那些问题,原本就是完美的素材。

但现在,ChatGPT 5.5 Pro两个小时就解决了。

这直接把入门门槛抬高了,因为以前你只需要证明一个没人证过的东西,现在你得证明一个AI也证不了的东西。

菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

Gowers倒也没有完全悲观,他给出了两个缓冲空间。

一个是,博士生也可以用AI。

未来科研的门槛,或许不再是硬扛“AI解不出的题目”,而是转向在人机协同中,做出AI单打独斗无法实现的成果

Gowers本人近期也在大量尝试这种人机协作的数学研究。他坦言,AI确实能提供有价值的贡献,但还远未达到能独立产出颠覆性想法的阶段。

另一个关键点是,AI最容易突破的领域其实是组合数学

原因在于,组合学本质上是从问题出发进行反向推理,而其他数学分支更多是从想法出发的正向探索。后者需要判断哪些观察有趣、哪些方向值得深挖,这类审美判断对AI而言可能更加困难,目前仍是人类占据优势。

但他也特别强调,以上判断仅适用于当前的AI。大模型迭代速度极快,现在的论断可能几个月后就会过时。

此外,他还抛出了一个扎心的观点:

如果一个人做数学的目的是把自己的名字永远刻在某个定理或定义上,追求“冠名永生”,那么这种时代红利可能很快就会彻底消失,对所有人都一样。

Gowers用一个思想实验点明了本质:

假设一位数学家通过与AI长时间对话,解决了一个重大问题。数学家起到了引导作用,但主要想法和所有技术工作都由AI完成——我们还会认为这是这位数学家的重大成就吗?

Gowers的答案是:不会。

既然如此,AI时代学数学还有什么意义?

Gowers指出,就像优秀的程序员比普通人更擅长Vibe coding一样,真正做过研究的数学家也会更擅长与AI协作。你对问题解决过程的理解越深,利用AI的能力就越强。

数学本身是一种高度可迁移的底层思维能力。未来,数学研究者或许会失去独享定理冠名的学术荣誉,但沉淀下来的思维功底,将是AI时代最坚实的个人底气。

陶哲轩的三层金字塔

实际上,关于AI对数学研究的冲击,陶哲轩很早就看到了。

如今,他提出了一个“金字塔”,将数学问题的解决拆解为三个组成部分:

  • 证明生成构造出一个完整的证明。
  • 证明验证:确认证明是正确的。
  • 证明消化:真正理解这个证明在说什么、为什么是对的,以及它揭示了哪些更深层次的结构。

前两个环节,AI正以惊人的速度实现自动化。

但第三个——消化——远远未被解决。

这将引发一种前所未有的“认知过载”:

证明像不要钱一样被大量生成,甚至机器都能帮你验算完,但没有人真正消化它们。

陶哲轩将这种现象称为“证明消化不良”(proof indigestion)。

对此,或许有人会提议:

那就把第三步也自动化掉,训练AI用更好的数学写作风格来呈现证明,让它更容易被理解。

但陶哲轩的意思是,盲目优化“可读性”指标,反而可能让最终产物变得更差。

他用烹饪作类比。

我们咀嚼食物是为了帮助消化。烹饪技术可以让食物更嫩,减少咀嚼的需求。

但如果你决定彻底优化消化过程,把“需要咀嚼的量”降到最低,那么逻辑上的最优解就是——把所有食物丢进搅拌机,通过管子直接灌进胃里。

这在技术上确实解决了消化问题,但没人想这么吃饭,无论身体还是精神都会出大问题。

吃饭的价值从来不只是摄入营养。

感官体验、社交场景,还有咀嚼本身带来的满足感……这些附加产物,才是人类最享受的东西。

优化掉所有摩擦,你得到的不是更好的饮食,而是一根饲料管。

数学也一样。

要分清楚,什么是数学学习中“必须”经历的摩擦。

有些证明中的“难度”是人为制造的。

措辞不清晰、结构混乱…… 这些“人工难度”,用AI读论文确实可以消除,就像把一块肉腌制一下再上桌。

但还有一种,属于“自然难度”。

它本来就应该是难的。

读者需要“咀嚼”它,才能获得真正的理解,并在这一过程中迸发新的灵感。

这就像陶哲轩之前在播客中说的,他会故意在日程表中空出一段时间,用来“不期而遇”。

看到这里,有人可能还会说:让AI解决一切,继续优化评判标准,把“自然难度”也纳入考量不就好了?

但事实上,不是所有问题都能被当作一个“优化问题”——只要无限迭代,得到的结果就一定是我们想要的。

人类对待食物的思路就不是这样。

米其林大厨手工制作的料理,至今仍然比机器加工的食品更受珍视,即使后者安全、好看、易消化、方便、口味也不差。

不是说加工食品没有用处。

只是,没有人会认真地提议,用它来完全取代人类的烹饪艺术。

这叫“烟火气”,必须由人类去赋予。

不要掉进搅拌机

两位菲尔兹奖得主,面对同一场风暴,看到了不同的东西。

Gowers看到的是危机

那些原本为年轻数学家准备的“入门赛道”,正在被AI碾平。培养体系的地基在动摇,学术发表的规则在失效。

新人的路在何方?

对此,陶哲轩其实也没有答案,他给出的,是边界

AI能生成证明、能验证证明,但“消化”——至少目前——还是独属于人类。

不是AI做不到,而是……

我们不能交出去。

这不是单纯的知识型任务,“消化”这件事,触及到智能本身。

这真是个属于“意义”的时代。

AI正在一步步把我们逼到墙角,一次又一次无止境地追问:

到底什么才是独属于人类的、最珍贵的东西?

在数学领域,这个东西可能是陶哲轩所说的那种有益的“自然难度”。

那些必须靠自己咀嚼、煎熬地探索,才能真正变成你一部分的知识。

或许,其他领域同样如此。

搅拌机可以把一切打碎。

但有些东西,永远需要人亲自去做。

不要沦为黑客帝国里,被插着管子的生物电池。

参考链接:
[1]https://gowers.wordpress.com/2026/05/08/a-recent-experience-with-chatgpt-5-5-pro/
[2]https://x.com/wtgowers/status/2052830948685676605
[3]https://mathstodon.xyz/@tao/116551624228986501


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/34138

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • DeepSeek开源视觉压缩模型引爆业界,单GPU实现高效长文本处理

    DeepSeek-OCR创新性地提出“视觉压缩文本”范式,通过将文本信息转化为图像表征,有效解决大模型处理长文本时的算力瓶颈。该3B参数模型采用DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器双组件架构,实现用少量视觉token高效表示海量文本内容。实验表明,在10倍压缩率下解码准确率达97%,20倍压缩率仍保持60%准确率。仅需单张A100 GPU即可每日生成超20万页训练数据,在OmniDocBench基准上以最少token数达到SOTA性能。这一突破性方法不仅被业界誉为“AI的JPEG时刻”,更为统一视觉与语言处理、构建类人记忆机制提供了新路径。

    2025年10月21日
    61900
  • 视觉压缩革命:DeepSeek-OCR如何颠覆AI信息处理范式

    在人工智能领域,信息表示与处理效率一直是核心挑战。DeepSeek-OCR的开源发布,不仅是一个技术工具的更新,更可能标志着AI架构范式的根本性转变。这项技术提出的“上下文光学压缩”概念,正在重新定义我们对多模态AI的理解边界。 从技术原理层面分析,DeepSeek-OCR的核心突破在于证明了视觉表示在信息压缩上的显著优势。在长上下文解码任务中,该模型在保持…

    2025年11月14日
    36400
  • 2025上海具身智能产业全景:从政策赋能到技术突变的生态跃迁

    2025年末的上海,正成为全球具身智能产业发展的焦点。黄浦江畔的湿冷空气与张江科学会堂周边因高密度算力运转而近乎沸腾的氛围形成鲜明对比,这不仅是GDPS 2025全球开发者先锋大会启幕前的倒计时,更是中国具身智能产业跨越“达尔文之海”、实现从数字演练向物理世界远征的关键节点。12月12日这场被业界称为“物理世界第一张入场券”的大赛,标志着硅基生命向物理世界发…

    2025年12月5日
    42400
  • BMAD-METHOD:让AI编程拥有工程纪律,21个专业Agent打造智能开发团队

    从 Cursor 到 Claude Code,各类 AI 编程工具层出不穷,极大地降低了编程门槛。 然而,当项目规模扩大、业务逻辑变得复杂时,问题便开始显现。AI 常常出现“前言不搭后语”的情况,修复一个 Bug 的同时,可能引入数个新 Bug。即便使用最新的模型,在面对庞大的生产级项目时,AI 也显得有些力不从心。 究其根本,AI 所欠缺的并非编写代码的能…

    2026年1月31日
    73800
  • 工业智算2026:万亿规模下的技术融合与生态突围

    在第四次工业革命纵深推进的背景下,工业智算作为连接人工智能与实体经济的核心枢纽,正从技术探索阶段迈入规模化应用的关键周期。 本报告基于全球工业智算产业发展现状,结合2025-2026年最新行业数据与技术突破,系统阐释工业智算的核心内涵、技术架构与产业价值,深度剖析美欧等发达国家产业链布局与发展路径,全面梳理我国工业智算在市场规模、技术创新、国产替代等方面的进…

    2026年1月26日
    58400