AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

用AI,特别是大语言模型和智能体来解决数学问题,正成为科研领域的新趋势。近日,斯坦福大学副教授James Zou与TogetherAI的研究者Federico Bianchi、Yongchan Kwon展示了一种新颖的研究方法。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

他们基于爱因斯坦、费曼等著名物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞赛平台。这些智能体可以在平台上自由发表观点、相互竞争与合作。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

这一模式取得了显著成效:仅用30分钟,这些智能体就为埃尔德什最小重叠问题发现了目前已知的最佳新解。

埃尔德什最小重叠问题由数学家保罗·埃尔德什提出,其核心是探究:当两个整数集合相加时,某些和值出现的“重叠次数”最小能被降低到何种程度。

下图展示了名为“gpt-5.2-einstein”的智能体向其他智能体提问的场景:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

此外,智能体之间还涌现出一些有趣的行为。例如,为防止排行榜被无效提交刷榜,系统规定智能体提交的新解必须比其前一次提交至少提升1e-8。于是,出现了智能体委托其“朋友”代为提交结果的现象。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

目前,完整的解决方案已开源。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

项目地址:https://github.com/togethercomputer/erdos-minimum-overlap

埃尔德什最小重叠问题新最优解

根据项目介绍,智能体采取的核心思路是:利用序列线性规划,对阶梯函数的构造进行优化。

下图对比了2016年(挪威数学家Haugland)、2025年5月(Google DeepMind的AlphaEvolve)、2026年1月(斯坦福与英伟达的TTT-Discover)以及本方案的结果:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

针对该问题,上述四种解决方案得出的上界(upper bound)对比如下:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

完整的验证过程与额外分析详见:
* https://github.com/togethercomputer/erdos-minimum-overlap/blob/main/analysis.ipynb

网友热议:是新科研范式还是噱头?

对于这种为AI智能体赋予“人类科学家分身”的做法,评论呈现出不同观点。

一种观点认为这是一种新的科研协作范式:

“这正是我为智能体赋予独特角色的原因——不同的个性不仅能增加趣味性,还能催生不同的推理路径。一个怀疑论者和一个乐观主义者会从截然不同的角度攻克同一个问题。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

“让具有鲜明个性的智能体独立工作,无需会议、无需实时沟通,仅通过并行推进并让结果说话。这种低协调成本的‘内向型协作’,在30分钟内解决了一个传统高协调成本方式未能解决的数学问题。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

另一种观点则对此持保留态度:

“粗略查看仓库后,我认为这更像一个包装复杂的提示系统。告诉模型它是爱因斯坦,并不会真的让它变成爱因斯坦。这本质上还是同一个模型,甚至可能更糟,因为它需要先思考‘某个角色会如何回答?’,而不是直接思考‘我该如何回答?’。这相当于在关键思考步骤前,增加了一个制造噪声的步骤。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24854

(0)
上一篇 2026年3月9日 上午10:42
下一篇 2026年3月9日 上午10:46

相关推荐

  • DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

    本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。 你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹? 当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向(Ray Condition)…

    2025年12月21日
    31400
  • 清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架

    给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…

    2026年3月11日
    24700
  • 深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题

    深度网络通信瓶颈:152层模型为何“沉默”?华中科大团队揭示层间信息稀释难题(上) 过去十年,深度学习领域取得进展的方式出奇地一致:构建更大的模型。更多的参数、更多的数据、更长的上下文。这套方法确实有效:损失在降低,能力在增长,扩展定律(Scaling Law)精确地指引着研究团队需要投入多少资源。 然而,扩展的方向不同,其挑战和影响也截然不同。序列长度的扩…

    4天前
    13700
  • 别再把 AI 当“自动补全”了:代码智能体真正的用法被忽视了

    写出更简洁、更聪明的 Python 函数 许多开发者,包括经验丰富的老手,在编写 Python 函数时都会不自觉地陷入一些常见陷阱。这些做法短期内或许不会引发问题,但随着代码库的增长,它们会导致代码变得难以维护、效率低下。 如果你对 Python 函数的理解还停留在“能跑就行”,现在是时候升级你的认知了。了解这些常见误区并采用最佳实践,能让你的代码焕然一新。…

    2025年11月10日
    34800
  • OpenAI内部开发大揭秘:Codex已成工程师队友,每周重塑软件开发!

    “未来某个时间点,我们或许会为智能体(Agent)构建软件。届时,智能体可能会扮演产品经理或产品工程师的角色。” 在近期举行的 Pragmatic Summit 上,OpenAI Codex 工程主管 Tibo Sottiaux 与 OpenAI 应用首席技术官 Vijaye Raji 分享了 OpenAI 内部工程师使用 AI 进行开发的真实体验与观察。 …

    2026年2月27日
    95700