开源模型首夺国际物理奥赛金牌！上海AI Lab打造235B参数模型超越GPT-5与Grok-4

2025年10月25日下午7:16 • AI产业动态 • 阅读 405

上海AI Lab研发的P1-235B-A22B模型以21.2分的优异成绩成功跨越IPhO金牌分数线，创造了开源模型在顶级物理竞赛中的历史性突破。

在覆盖2024-2025年全球13场顶级物理赛事的HiPhO基准测试中，P1-235B-A22B表现卓越，斩获12金1银，与谷歌Gemini-2.5-Pro并列奖牌榜首位。

这一成绩超越了GPT-5的11金和Grok-4的10金，标志着开源模型在物理推理能力上已实现对标甚至超越主流闭源模型。

为精准评估模型在物理奥赛中的表现，研究团队构建了HiPhO基准测试——这是首个专注于最新物理奥赛、采用人类对齐评估的权威基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别物理竞赛，包括IPhO、APhO、EuPhO等国际和区域赛事。该基准采用官方评分标准，对答案和解题过程进行细粒度评分，确保评估结果与人类评审严格对齐。

研究团队通过高质量的数据提取和标注流程，构建了包含数千条奥赛级别题目的训练数据集。每条数据均包含完整上下文信息、可验证答案及标准解题过程。

P1系列模型采用多阶段强化学习流程进行训练，关键策略包括：

为突破单模型极限，团队开发了PhysicsMinions——专为物理推理设计的协同进化多智能体系统，包含三大交互模块：

通过这种协同进化机制，系统持续提升复杂物理问题的推理质量与鲁棒性。

在HiPhO基准测试的综合表现中：

配备PhysicsMinions多智能体系统后，P1模型性能实现跨越式提升。P1-235B-A22B在HiPhO基准上的平均得分从35.9分提升至38.4分，在所有模型中综合排名第一，超越了Gemini-2.5-Pro和GPT-5等顶尖闭源模型。

除了强大的物理推理能力，P1模型在多个领域表现持续提升。P1-30B-A3B相比于基座模型，在数学、代码、STEM等基准测试上均取得显著优势，证明了物理推理能力的强大泛化性。

相关资源：

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/4402