开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。

开源模型首次在国际物理奥林匹克竞赛中斩获金牌!

上海AI Lab研发的P1-235B-A22B模型以21.2分的优异成绩成功跨越IPhO金牌分数线,创造了开源模型在顶级物理竞赛中的历史性突破。

在覆盖2024-2025年全球13场顶级物理赛事的HiPhO基准测试中,P1-235B-A22B表现卓越,斩获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜首位。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

这一成绩超越了GPT-5的11金和Grok-4的10金,标志着开源模型在物理推理能力上已实现对标甚至超越主流闭源模型。

构建专业评测体系:HiPhO基准

为精准评估模型在物理奥赛中的表现,研究团队构建了HiPhO基准测试——这是首个专注于最新物理奥赛、采用人类对齐评估的权威基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别物理竞赛,包括IPhO、APhO、EuPhO等国际和区域赛事。该基准采用官方评分标准,对答案和解题过程进行细粒度评分,确保评估结果与人类评审严格对齐。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

多阶段强化学习策略

研究团队通过高质量的数据提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均包含完整上下文信息、可验证答案及标准解题过程。

P1系列模型采用多阶段强化学习流程进行训练,关键策略包括:

  • 上下文窗口扩展:逐步扩展模型最大生成长度,使其能够探索更长的推理链,提升高复杂度问题的解决能力
  • 通过率过滤:基于通过率统计筛选数据,排除过于简单或困难的任务
开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

协同进化多智能体系统PhysicsMinions

为突破单模型极限,团队开发了PhysicsMinions——专为物理推理设计的协同进化多智能体系统,包含三大交互模块:

  • 视觉模块:观察和验证多模态问题,提取结构化视觉信息
  • 逻辑模块:生成初始解决方案,通过自我改进和反思迭代优化解答
  • 审核模块:执行双阶段验证,检查物理一致性与逻辑推理正确性

通过这种协同进化机制,系统持续提升复杂物理问题的推理质量与鲁棒性。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

评测结果:领跑HiPhO基准

在HiPhO基准测试的综合表现中:

  • P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5系列并列第一,金牌数超越GPT-5、Grok-4等主流闭源模型
  • IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型
  • P1-30B-A3B同样表现出色,获得8金4银1铜,在中等规模模型中表现突出
开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B在HiPhO基准上的平均得分从35.9分提升至38.4分,在所有模型中综合排名第一,超越了Gemini-2.5-Pro和GPT-5等顶尖闭源模型。

通专融合的能力拓展

除了强大的物理推理能力,P1模型在多个领域表现持续提升。P1-30B-A3B相比于基座模型,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

相关资源:

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4402

(0)
上一篇 2025年10月25日 上午9:11
下一篇 2025年10月26日 上午5:14

相关推荐

  • 零代码革命:Postman AI Agent Builder一键将10万API转化为MCP服务器

    在技术领域,总有一些时刻会让人感到“魔法”般不可思议。 现在就是这样一个时刻。 Postman 悄然发布了一款 AI Agent Builder,它能够将超过 100,000 个现成的 API 一键转换为功能完备的 MCP(Model Context Protocol)服务器,整个过程无需编写任何代码。 你只需简单点击几下,下载一个 ZIP 文件,然后——你…

    2025年12月12日
    34900
  • 人机协作新突破:仅凭本体感知实现无缝搬运,COLA方法引领具身智能新范式

    在机器人技术快速发展的今天,人机协作搬运一直是学术界和工业界关注的重点领域。传统方法通常依赖外部传感器(如摄像头、激光雷达)或遥控设备来实现机器人与人类的交互,但这些方案存在成本高、易受环境干扰、交互不自然等局限。近期,一项由中国研究团队提出的创新方法COLA(Collaborative Lifting with Adaptive roles)引起了广泛关注…

    2025年11月8日
    18500
  • 摩尔线程LiteGS斩获SIGGRAPH Asia银奖:3D高斯溅射技术突破60秒高质量重建极限

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级学术会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成就不仅展示了摩尔线程在算法创新与软硬件协同优化方面的深厚实力,也标志着该公司在新一代图形渲染技术领域获得了学术界的高度认可。 3D高斯溅射作为2023年提出的革命性三维场景表…

    2025年12月17日
    28100
  • 开源编译器工具链突破:PyTorch直通FPGA,性能超越Vitis HLS 2.21倍

    关键词:PyTorch、Calyx、编译器工具链、机器学习加速器、FPGA From PyTorch to Calyx: An Open-Source Compiler Toolchain for ML Accelerators https://arxiv.org/pdf/2512.06177 9000 字,阅读 30 分钟,播客 6 分钟 本文提出一款端到…

    2025年12月21日
    20900
  • 学术产业化危机:当AI顶会成为明码标价的“入学筹码”

    在人工智能技术迅猛发展的当下,一个令人担忧的现象正在学术圈蔓延:商业机构将学术研究包装成可量产的“产品”,通过付费辅导班的形式,将顶级学术会议论文变为明码标价的“入学筹码”。这不仅严重稀释了学术研究的含金量,挤占了宝贵的学术资源,更可能引发深层次的学术信任危机。香港大学计算与数据科学学院院长马毅(网名“毅马当闲”)在微博中尖锐指出:“顶会规模化后,已基本失去…

    2025年12月8日
    17600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注