AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

用AI,特别是大语言模型和智能体来解决数学问题,正成为科研领域的新趋势。近日,斯坦福大学副教授James Zou与TogetherAI的研究者Federico Bianchi、Yongchan Kwon展示了一种新颖的研究方法。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

他们基于爱因斯坦、费曼等著名物理学家的“人格画像”构建了一批AI智能体,并创建了一个类似Kaggle的竞赛平台。这些智能体可以在平台上自由发表观点、相互竞争与合作。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

这一模式取得了显著成效:仅用30分钟,这些智能体就为埃尔德什最小重叠问题发现了目前已知的最佳新解。

埃尔德什最小重叠问题由数学家保罗·埃尔德什提出,其核心是探究:当两个整数集合相加时,某些和值出现的“重叠次数”最小能被降低到何种程度。

下图展示了名为“gpt-5.2-einstein”的智能体向其他智能体提问的场景:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

此外,智能体之间还涌现出一些有趣的行为。例如,为防止排行榜被无效提交刷榜,系统规定智能体提交的新解必须比其前一次提交至少提升1e-8。于是,出现了智能体委托其“朋友”代为提交结果的现象。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

目前,完整的解决方案已开源。

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

项目地址:https://github.com/togethercomputer/erdos-minimum-overlap

埃尔德什最小重叠问题新最优解

根据项目介绍,智能体采取的核心思路是:利用序列线性规划,对阶梯函数的构造进行优化。

下图对比了2016年(挪威数学家Haugland)、2025年5月(Google DeepMind的AlphaEvolve)、2026年1月(斯坦福与英伟达的TTT-Discover)以及本方案的结果:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

针对该问题,上述四种解决方案得出的上界(upper bound)对比如下:

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

完整的验证过程与额外分析详见:
* https://github.com/togethercomputer/erdos-minimum-overlap/blob/main/analysis.ipynb

网友热议:是新科研范式还是噱头?

对于这种为AI智能体赋予“人类科学家分身”的做法,评论呈现出不同观点。

一种观点认为这是一种新的科研协作范式:

“这正是我为智能体赋予独特角色的原因——不同的个性不仅能增加趣味性,还能催生不同的推理路径。一个怀疑论者和一个乐观主义者会从截然不同的角度攻克同一个问题。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

“让具有鲜明个性的智能体独立工作,无需会议、无需实时沟通,仅通过并行推进并让结果说话。这种低协调成本的‘内向型协作’,在30分钟内解决了一个传统高协调成本方式未能解决的数学问题。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

另一种观点则对此持保留态度:

“粗略查看仓库后,我认为这更像一个包装复杂的提示系统。告诉模型它是爱因斯坦,并不会真的让它变成爱因斯坦。这本质上还是同一个模型,甚至可能更糟,因为它需要先思考‘某个角色会如何回答?’,而不是直接思考‘我该如何回答?’。这相当于在关键思考步骤前,增加了一个制造噪声的步骤。”

AI科学家30分钟破解数学难题!斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24854

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • 上海云宇星空大模型:6000亿参数重构政务AI,从“能调图”到“敢决策”的深度革命

    当大模型能调图、会统计、会写报告,政务工作流正在被重构。 当下,政务大模型的落地路径,正在分化出两条截然不同的跑道:当不少地方政府选择以“轻量化”的方式,将通用模型快速接入政务系统时,上海市规划和自然资源局给出了一条更“重”、更深的路线。 近日,由上海市规划资源局与商汤大装置联合打造的全国规划资源领域首个基础大模型“云宇星空大模型”(专业版)上线。这并非一个…

    2025年12月25日
    19100
  • 大模型流式输出打字机效果的前后端实现

    1. 背景 在使用ChatGPT时,发现输入 prompt 后,页面是逐步给出回复的,起初以为使用了 WebSckets 持久化连接协议,查看其网络请求,发现这个接口的通信方式并非传统的 http 接口或者 WebSockets,而是基于 EventStream 的事件流,像打字机一样,一段一段的返回答案。 ChatGPT 是一个基于深度学习的大型语言模型,…

    2025年10月1日
    59301
  • Context Engineering:2026年真正重要的6种技术(完整指南)

    Prompt Engineering 已死。Context Engineering 才是当下生产系统的工作方式。 你的 RAG 系统返回了完美的文档片段,你的提示词也打磨得无可挑剔,但大语言模型(LLM)依然在“幻觉”中编造答案。 例如,当你查询最新的退款政策时,系统可能将2018年至2026年的50份文档全部塞入上下文。LLM 看到相互矛盾的政策,陷入混乱…

    2026年2月28日
    19300
  • Prompt Learning的进化之路:从静态优化到SIPDO闭环自进化系统

    Prompt 作为一种接口,直接决定了大型语言模型(LLM)与智能体系统的行为模式与性能上限。对提示(prompt)的理解与控制,本质上决定了系统能力能被释放到何种程度。提示学习(prompt learning)的出现,使这一过程从经验驱动走向可系统化研究,并逐步形成了一条清晰的发展脉络。回顾这条路径,本身就有助于我们理解提示学习是如何一步步构建起来的。 然…

    2026年2月27日
    12900
  • 从Jupyter到Web应用:用Python、FastAPI与LangChain构建可部署的AI工具

    从Jupyter到Web应用:用Python、FastAPI与LangChain构建可部署的AI工具(第1/2部分) 为何需要将AI脚本转化为Web应用 在Jupyter Notebook中成功验证一个AI模型(如问答或文本摘要)后,其价值往往受限于本地环境。团队无法协作,用户无法访问,模型的价值难以释放。 核心在于:AI的价值不仅在于模型本身,更在于其可访…

    2025年11月30日
    16500