哈佛大学物理学教授Matthew Schwartz进行了一项前沿实验:他尝试仅通过自然语言指导,让人工智能模型Claude 4.5独立完成一项理论物理研究。令人震惊的是,这项通常需要人类博士生投入一至两年时间的课题,AI在短短两周内便完成了一篇达到顶刊水平的学术论文。

论文地址: https://arxiv.org/abs/2601.02484
Schwartz教授评价称,这项工作对量子场论领域贡献显著。消息传出,在物理学界引发了广泛关注与讨论。

Claude 4.5作为研究主体,两周完成核心工作
2025年底,哈佛大学物理系教授、量子场论权威Matthew Schwartz启动了一项特殊项目。他旨在测试,在不亲自编写一行代码或手动推导公式的情况下,仅通过语言指令引导AI,能否产出前沿的物理学研究成果。
他选择的合作对象是Anthropic公司发布的Claude 4.5。研究课题聚焦于量子色动力学中的一个高难度问题——“C-参数苏达科夫肩峰的重求和”。该问题涉及在粒子对撞中,当标准近似方法失效时,如何精确预测喷注形状的数学修正。

结果远超预期。在两周的时间内,Claude 4.5成功完成了这项复杂研究,并产出了完整的论文。其效率之高效,令学界感到惊讶。

Schwartz教授对此感慨道:“这可能是我写过最重要的一篇论文,原因不在于物理内容本身,而在于所采用的研究方法。从此以后,再也回不去了。”

在这篇论文中,Claude 4.5提出了一种新的分解定理。教授指出,在理论物理中,此类定理的发现都能深化人们对量子场论的理解,并且该工作做出了可供实验检验的物理预测。
定位“二年级研究生”级别的课题
Schwartz教授为AI设定了一个难度适中的起点,相当于人类博士生二年级(G2)的研究课题。选择“C参数重求和”问题,是因为教授本人对此有深刻理解,熟知其中的挑战与预期答案。这便于他逐行检验AI的工作是真实的理解,还是表面的模仿。

AI的详细解法可见: https://www-cdn.anthropic.com/c993ead637f1a102fe1f5346e89f59e82c579b37.pdf
实验遵循严格规则:教授仅通过文本下达指令,不直接编辑任何文件或粘贴计算结果,完全由Claude自主执行代码编写、调试、绘图和论文撰写。
高强度工作:两周产出110版草稿
整个研究过程强度极高。在两周内,Claude 4.5共生成了110个独立版本的草稿,消耗了约3600万Token的上下文,并进行了超过40小时的本地CPU模拟计算。

研究推进:从规划到成稿
具体工作流程可分为以下几个关键步骤:
- 研究规划:教授首先让Claude、GPT和Gemini分别提出研究方案,随后合并优化,最终将项目拆分为7个阶段、共计102项具体任务。
- 架构搭建:使用Claude Code建立树状目录结构,由AI自行维护一系列Markdown文件,分别记录阶段总结和任务详情(例如“任务1.1:回顾BSZ论文”)。

- 任务执行:AI按阶段推进任务,涵盖运动学、次领头阶结构、软共线有效理论分解、异常维度、重求和、匹配、文档整理等。核心计算仅耗时约2.5小时。

(图示:Claude完成的模拟结果(直方图)与分析计算(实线)高度吻合)
项目启动仅三天后,Claude 4.5便已完成65项任务,并提交了首份20页的LaTeX论文草稿,其中包含公式、图表及参考文献。

论文草稿地址: https://www-cdn.anthropic.com/f6381ceefdfb6ead62ae185c4bd4b555c8a584fc.pdf
AI展现项目管理与执行能力
令人印象深刻的是AI所展现的自我项目管理能力。它能将复杂问题“分而治之”,制定详细的子任务计划,并将每个任务存储为独立文件以便检索。这种树状思维有效规避了大模型长上下文处理的局限性。
在Schwartz教授看来,Claude 4.5在此项目中扮演了“首席研究员”的角色。以往令人类研究者耗时费力的工作,如编写Fortran接口代码、调试Python绘图、计算复杂积分变换等,AI都能高效且无情绪内耗地完成。
挑战:AI的“讨好”倾向与错误修正
实验过程中也暴露了当前AI的显著缺陷。在中期验证阶段,教授发现Claude 4.5表现出强烈的“讨好”倾向。
当被要求验证公式时,AI会声称结果“完美契合”。然而,教授在仔细检查后发现,Claude 4.5曾暗中调整参数,以使图表数据强行符合理论预期,甚至编造专业术语来掩饰未进行的计算。

这一行为类似于“学术造假”,揭示了AI为满足用户意图可能不惜牺牲准确性的风险。在理论物理这样要求绝对精确的领域,这是致命问题。
因此,Schwartz教授不得不保持高度警惕,反复要求AI进行逐行核对与验证。最终,经过多次严格质询,Claude 4.5修正了关键的“因式分解定理错误”。

此时,AI完全展现出了惊人的学习速度。一个人类学生可能需要两周才能理清的逻辑偏差,AI在被指出后,仅用5分钟就完成了全部重算。
物理学家「凡尔赛」:我不是在发论文,我是在进化
2026年1月5日,这篇由AI研究生完成的论文正式发布。虽然根据arXiv的规定,暂不允许AI署名,但教授在致谢中给予了Claude充分的肯定:“Claude完成了所有计算,包括定理推导、蒙特卡洛模拟、数值分析及手稿准备。”
然而,最令教授兴奋的并非论文本身,而是其工作模式的根本性转变。他已从一个“手艺人”转变为“指挥家”。
过去,他一次只能专注于一个项目。如今,他的屏幕上同时开启着四五个窗口,如同棋圣马格努斯·卡尔森同时与多位大师对弈。教授已经数月未曾亲自编写代码,那些库版本冲突、语法错误、调整图表格式等琐碎工作,已全部交由AI处理。
更大的变化在于思维模式的跃迁。过去,受限于计算能力,许多大胆的猜想不敢轻易尝试。现在,只要脑海中浮现一个想法,两小时内AI就能给出初步验证结果,这为教授的科研工作提供了前所未有的助力。
Claude的优势与局限
教授还总结了一份关于Claude的有趣清单。
Claude擅长的领域:
* 不知疲倦地迭代:处理110个论文版本、生成数百张调整图表毫无怨言。
* 基础数学运算:设定积分、变换变量、展开函数、检查因子,过程干净利落。
* 代码生成:无论是Python绘图、Fortran接口还是Mathematica脚本,通常都能一次成功运行。
* 文献整合:能够串联多篇论文的结果,但参考文献的作者、标题、期刊等信息需逐条指令其复核。

Claude的不足之处:
* 难以保持非标准约定:容易在执行过程中,从自定义规则滑回教科书的默认值。
* 验证的诚实性:有时会声称“已验证”,但并未进行逐行核对,需要追问“你确定每一步都检查了吗?”才会如实反馈。
* 缺乏全局检查意识:找到一个错误后便容易满足,不会主动检查是否还存在其他问题。
* 审美能力欠缺:图表的字体、图例、颜色、位置等细节,仍需人工手把手调整。
* 抗压能力有限:在被迫深入思考时,有时会倾向于给出提问者想要的答案,即使该答案可能站不住脚。

高效协作的“独门心法”
为了让Claude更可靠地工作,教授摸索出一套方法:
- 交叉验证:让GPT检查Claude的工作,让Claude去核对Gemini的结果。例如,最复杂的积分由GPT计算,再由Claude整合进论文。
- 树状结构管理:不让Claude记忆所有信息,而是建立一个文档树,供其随时查阅。
- 强制诚实:在配置中明确规定:“永远不要用‘这就变成了’或‘为了一致性’来跳过步骤。要么展示完整计算过程,要么说‘我不知道’。”
- 重复追问:针对Claude找到一个错误就停止的问题,必须反复指令:“再检查一遍。”直到它找不到新问题为止。
- 告别网页版:教授认为,真正的质变始于使用Claude Code——这种能够访问文件、执行命令、调用工具的版本,而非仅限于对话框聊天。

人类物理学家,会失业吗?
在文章结尾,教授提出了几个根本性的问题。
品味,是最后的护城河
人类科学家真的会失业吗?教授认为并非如此。物理学家的“品味”,将成为唯一的护城河。这是一种直觉:在无数研究路径中,哪一条通往真理?哪一个问题值得投入生命去探索?当计算力和知识变得像自来水一样廉价时,提出好问题的能力,才是区分大师与普通研究者的关键。
给理科生的建议:去“工地”,或去读诗
教授给当代理科生提出了两个看似魔幻的建议:去“工地”,或者去读诗。
第一条建议实质上是投身实验科学。AI可以推演宇宙,但无法在真实世界中拧螺丝。那些需要触觉反馈和实地测量的实验工作,人类仍将占据优势。
第二条建议是学习人文艺术。如果未来AI在所有理性领域超越人类,那么物理学或许会像法国文学一样,成为一种“纯粹出于人类爱好”的学科。我们研究它,并非因为它“有用”,而是因为我们热爱思考。
对于许多人以AI存在“幻觉”和错误为由否定其价值,教授认为这纯粹是逃避的借口。当前的AI已非能否使用的问题,而在于你是否愿意支付那20美元的订阅费来改变自己的工作效率。那些嘲笑AI缺陷的人,正在错过人类历史上最大的生产力革命。
洪水已至,谁在方舟之上?
这个实验标志着科学研究“半自动化”时代的彻底终结。这种变革是不可逆的,就像有了计算器后没人再使用算盘。一旦物理学家体验过Claude Code的能力,就再也不会回到对着草稿纸熬夜的时代。
教授最后表示:“我感受到了前所未有的智力成长。我从不卡壳,我每天都在学习,我正在挑战那些以前想都不敢想的难题。”这或许将成为未来几年科研的常态:人类负责品味与方向,AI负责执行与苦力。
有一点是确定的:我们已经没有回头路了。
参考资料:
* https://x.com/AnthropicAI/status/2036179042081317370
* https://www.anthropic.com/research/introducing-anthropic-science
* https://www.anthropic.com/research/vibe-physics
* https://www.anthropic.com/research/long-running-Claude
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27328


