开源模型首次在国际物理奥林匹克竞赛中斩获金牌!
上海AI Lab研发的P1-235B-A22B模型以21.2分的优异成绩成功跨越IPhO金牌分数线,创造了开源模型在顶级物理竞赛中的历史性突破。
在覆盖2024-2025年全球13场顶级物理赛事的HiPhO基准测试中,P1-235B-A22B表现卓越,斩获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜首位。

这一成绩超越了GPT-5的11金和Grok-4的10金,标志着开源模型在物理推理能力上已实现对标甚至超越主流闭源模型。
构建专业评测体系:HiPhO基准
为精准评估模型在物理奥赛中的表现,研究团队构建了HiPhO基准测试——这是首个专注于最新物理奥赛、采用人类对齐评估的权威基准。
HiPhO涵盖了2024-2025年最新的13场奥林匹克级别物理竞赛,包括IPhO、APhO、EuPhO等国际和区域赛事。该基准采用官方评分标准,对答案和解题过程进行细粒度评分,确保评估结果与人类评审严格对齐。

多阶段强化学习策略
研究团队通过高质量的数据提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均包含完整上下文信息、可验证答案及标准解题过程。
P1系列模型采用多阶段强化学习流程进行训练,关键策略包括:
- 上下文窗口扩展:逐步扩展模型最大生成长度,使其能够探索更长的推理链,提升高复杂度问题的解决能力
- 通过率过滤:基于通过率统计筛选数据,排除过于简单或困难的任务

协同进化多智能体系统:PhysicsMinions
为突破单模型极限,团队开发了PhysicsMinions——专为物理推理设计的协同进化多智能体系统,包含三大交互模块:
- 视觉模块:观察和验证多模态问题,提取结构化视觉信息
- 逻辑模块:生成初始解决方案,通过自我改进和反思迭代优化解答
- 审核模块:执行双阶段验证,检查物理一致性与逻辑推理正确性
通过这种协同进化机制,系统持续提升复杂物理问题的推理质量与鲁棒性。

评测结果:领跑HiPhO基准
在HiPhO基准测试的综合表现中:
- P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5系列并列第一,金牌数超越GPT-5、Grok-4等主流闭源模型
- 在IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型
- P1-30B-A3B同样表现出色,获得8金4银1铜,在中等规模模型中表现突出

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B在HiPhO基准上的平均得分从35.9分提升至38.4分,在所有模型中综合排名第一,超越了Gemini-2.5-Pro和GPT-5等顶尖闭源模型。
通专融合的能力拓展
除了强大的物理推理能力,P1模型在多个领域表现持续提升。P1-30B-A3B相比于基座模型,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。

相关资源:
- 项目主页:https://prime-rl.github.io/P1
- GitHub:https://github.com/PRIME-RL/P1
- HiPhO论文:https://arxiv.org/abs/2509.07894
- PhysicsMinions论文:https://arxiv.org/abs/2509.24855
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4402
