国产开源模型P1登顶国际物理奥赛：多阶段强化学习与智能体框架的协同突破

2025年11月22日上午10:38 • AI产业动态 • 阅读 98

近日，上海人工智能实验室团队推出的开源模型家族P1在国际物理奥林匹克竞赛（IPhO）2025理论考试中取得历史性突破。其旗舰模型P1-235B-A22B以21.2/30分的成绩，成为首个达到金牌线的开源模型，仅次于Gemini-2.5-Pro与GPT-5。这一成就不仅标志着国产大模型在复杂科学推理领域的重大进展，更通过创新的多阶段强化学习与智能体框架设计，为AI解决高难度学科问题提供了全新范式。

深入分析P1的成功，核心在于其构建的高质量物理训练数据集与创新的训练方法论。团队首先构建了由5065道奥赛级文本物理题构成的数据集，其中包含4126道物理奥赛真题与939道竞赛教材题目，覆盖力学、电磁学、热学、光学、近代物理等五大领域和二十五个子领域。这些题目具有极高的复杂度：平均题干长达367 tokens，最长达到3386 tokens；平均解答需349 tokens，最长解答达5519 tokens。每道题目均包含题目描述、完整专家解答以及可规则验证的标准答案，为模型学习提供了结构化基础。

为确保数据质量，团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型进行交叉验证，并人工检查OCR错误，删除无法通过规则判定的题目。这种严谨的数据构建流程，为后续训练奠定了坚实基础。

在训练策略上，P1采用了创新的多阶段强化学习流程。团队将物理解题形式化为序列决策问题：模型在每个状态下生成下一个token，直至输出完整解答；最终奖励由模型解出的答案正确性决定。不同于传统的PPO方法，团队采用了为长链推理优化的GSPO（Group Sequence Policy Optimization）。该方法在每个题目上采样若干条完整解答作为一组，通过相对收益构建优势函数，有效缓解了物理题奖励稀疏的问题——解题过程涉及成千上万个token，但仅在最后一步才有明确信号。

为支持GSPO稳定工作，团队构建了精密的奖励系统和判题器。训练阶段，模型必须严格按照预设格式输出最终答案，使判题器能可靠提取答案，并通过符号计算工具判断与标准答案的等价性。针对物理题常包含多个子问题的特点，团队采用类似程序评测的“测试用例式”奖励聚合方式，将最终奖励定义为多个子问题得分的综合。整个训练过程严格使用规则判题器，避免模型学习讨好模型型判题器的写作风格。

随着训练推进，模型会出现可学习性下降问题，表现为梯度失效、熵急剧下降、模板化表达等。团队对此提出两项创新处理：首先，基于题目难度进行动态数据筛选，仅保留基座模型通过率在0到0.7之间的题目，避免完全无法解答或过于简单的题目影响训练效果；其次，逐步扩展模型探索范围，增加每题采样解答条数，并扩大可生成最大长度，使模型能处理越来越复杂的问题。这种多阶段策略确保了模型能力提升的同时保持稳定的可学习性。

此外，团队还解决了训练与推理阶段的概率偏差问题。由于推理通过vLLM或SGLang等专门引擎进行，而训练在Megatron或FSDP框架中完成，二者浮点实现存在微小差异。为此，团队引入Truncated Importance Sampling（TIS），用截断的策略比重校正这种偏移，确保训练策略与真实采样策略的一致性。

在推理阶段，P1引入了专为物理推理设计的协同进化多智能体系统——PhysicsMinions，显著提升了解题质量。该系统在原设计中包含三个交互模块：视觉工作室、逻辑工作室和审查工作室。视觉工作室负责观察、验证并反思输入内容，将其转化为结构化信息；逻辑工作室中，solver生成初始解答，introspector通过自我改进机制优化解答；审查工作室则进行双阶段审查，Physics-Verifier检查物理一致性，General-Verifier检查逻辑、推理过程和计算细节。若任一审查未通过，系统会生成详细错误报告返回逻辑工作室，由introspector修正解答后重新提交审查，直至解答连续通过预设次数的审查。

值得注意的是，由于P1是纯文本模型，系统中的视觉工作室被关闭，但逻辑工作室与审查工作室的协作仍显著提高了推理稳定性与表现。团队在逻辑工作室中实例化P1作为solver，在审查工作室中以P1分别担任两个审查器，实现了PhysicsMinions内的推理协同过程。

实验验证了该框架的有效性。在团队构建的包含最新13项顶级物理竞赛的HiPhO基准上，引入PhysicsMinions后，P1-235B-A22B平均成绩从35.9提升至38.4，在所有33个顶流模型中排名第一，超过Gemini-2.5-Pro（37.7）和GPT-5（37.4）。更令人瞩目的是，在中国物理奥林匹克（CPhO）2025人工评分中，P1-235B-A22B获得227/320分，显著超过当届全国金牌第一名人类选手的199分。在13场国际物理竞赛中，P1系列模型取得12金1银的优异成绩。

开源方面，团队承诺从模型、算法到评测集、智能体框架的全链路开源，这将极大推动AI在科学教育、竞赛辅助等领域的应用发展。P1的成功不仅展示了国产大模型在高难度学科任务上的突破潜力，更为AI与复杂科学推理的结合提供了可复现的技术路径，预示着AI在专业化、深层次问题解决中的广阔前景。

— 图片补充 —