AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

用AI,特别是大语言模型和智能体来解决数学问题,正成为科研领域的新趋势。近日,斯坦福大学副教授James Zou与TogetherAI的研究者Federico Bianchi、Yongchan Kwon展示了一种新颖的研究方法。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

他们基于爱因斯坦、费曼等著名物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞赛平台。这些智能体可以在平台上自由发表观点、相互竞争与合作。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

这一模式取得了显著成效:仅用30分钟,这些智能体就为埃尔德什最小重叠问题发现了目前已知的最佳新解。

埃尔德什最小重叠问题由数学家保罗·埃尔德什提出,其核心是探究:当两个整数集合相加时,某些和值出现的“重叠次数”最小能被降低到何种程度。

下图展示了名为“gpt-5.2-einstein”的智能体向其他智能体提问的场景:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

此外,智能体之间还涌现出一些有趣的行为。例如,为防止排行榜被无效提交刷榜,系统规定智能体提交的新解必须比其前一次提交至少提升1e-8。于是,出现了智能体委托其“朋友”代为提交结果的现象。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

目前,完整的解决方案已开源。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

项目地址:https://github.com/togethercomputer/erdos-minimum-overlap

埃尔德什最小重叠问题新最优解

根据项目介绍,智能体采取的核心思路是:利用序列线性规划,对阶梯函数的构造进行优化。

下图对比了2016年(挪威数学家Haugland)、2025年5月(Google DeepMind的AlphaEvolve)、2026年1月(斯坦福与英伟达的TTT-Discover)以及本方案的结果:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

针对该问题,上述四种解决方案得出的上界(upper bound)对比如下:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

完整的验证过程与额外分析详见:
* https://github.com/togethercomputer/erdos-minimum-overlap/blob/main/analysis.ipynb

网友热议:是新科研范式还是噱头?

对于这种为AI智能体赋予“人类科学家分身”的做法,评论呈现出不同观点。

一种观点认为这是一种新的科研协作范式:

“这正是我为智能体赋予独特角色的原因——不同的个性不仅能增加趣味性,还能催生不同的推理路径。一个怀疑论者和一个乐观主义者会从截然不同的角度攻克同一个问题。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

“让具有鲜明个性的智能体独立工作,无需会议、无需实时沟通,仅通过并行推进并让结果说话。这种低协调成本的‘内向型协作’,在30分钟内解决了一个传统高协调成本方式未能解决的数学问题。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

另一种观点则对此持保留态度:

“粗略查看仓库后,我认为这更像一个包装复杂的提示系统。告诉模型它是爱因斯坦,并不会真的让它变成爱因斯坦。这本质上还是同一个模型,甚至可能更糟,因为它需要先思考‘某个角色会如何回答?’,而不是直接思考‘我该如何回答?’。这相当于在关键思考步骤前,增加了一个制造噪声的步骤。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24854

(0)
上一篇 2026年3月9日 上午10:42
下一篇 2026年3月9日 上午10:46

相关推荐

  • Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实

    在人工智能的发展历程中,有一位科学家几乎贯穿了整个深度学习时代——他就是Yann LeCun。 许多人最初接触神经网络,往往是通过他在上世纪提出的手写数字识别系统LeNet。这一早期的卷积神经网络模型不仅成功应用于银行支票识别,也为后来席卷全球的深度学习浪潮奠定了重要基础。 与如今大量研究者将目光投向生成式AI不同,LeCun近年来一直在强调另一条更长期的研…

    2026年3月29日
    27300
  • 谷歌Cloud AI负责人14年经验:21条反直觉工程法则,从“规模让bug也有用户”到“创新需要偿还”

    Addy Osmani 是谷歌 Cloud AI 的总监,专注于帮助开发者和企业通过 Gemini、Vertex AI 和代理开发套件(ADK)取得成功。他在谷歌拥有14年的工作经验,曾参与 DevTools、Lighthouse 和 Core Web Vitals 的开发,拥有 25 年构建网络技术的行业经验,同时也是《超越Vibe编程》《学习 JavaS…

    2026年1月5日
    55600
  • 别再把 AI 当“自动补全”了:代码智能体真正的用法被忽视了

    写出更简洁、更聪明的 Python 函数 许多开发者,包括经验丰富的老手,在编写 Python 函数时都会不自觉地陷入一些常见陷阱。这些做法短期内或许不会引发问题,但随着代码库的增长,它们会导致代码变得难以维护、效率低下。 如果你对 Python 函数的理解还停留在“能跑就行”,现在是时候升级你的认知了。了解这些常见误区并采用最佳实践,能让你的代码焕然一新。…

    2025年11月10日
    41500
  • 生产级 Agentic AI 系统的 7 层架构详解

    现代的代理型 AI 系统,无论是运行在开发、预发布还是生产环境中,都应构建为一组职责明确的架构层,而非单一服务。每一层分别负责代理编排、记忆管理、安全控制、可扩展性、故障处理等具体关注点。一个面向生产的代理系统通常会组合这些层,以确保在真实工作负载下具备可靠性、可观测性与安全性。 Production Grade Agentic System (Create…

    2025年12月23日
    57800
  • GLM-5.1颠覆CUDA优化:AI 14小时完成人类数月工作,开源模型首次全面对齐Claude Opus 4.6

    GLM-5.1 在 CUDA 优化领域实现突破:AI 以小时级效率完成传统需数月的工作 在 GPU 计算优化领域,一项新的进展正在改变工作范式。传统上,优化 CUDA Kernel 需要资深工程师投入数月时间进行反复测试与调优。如今,人工智能模型能在约 14 小时内自主完成同类复杂优化任务,并将性能加速比从初始的 2.6 倍显著提升至 35.7 倍。 这一过…

    2026年4月8日
    66200