开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。

开源模型首次在国际物理奥林匹克竞赛中斩获金牌!

上海AI Lab研发的P1-235B-A22B模型以21.2分的优异成绩成功跨越IPhO金牌分数线,创造了开源模型在顶级物理竞赛中的历史性突破。

在覆盖2024-2025年全球13场顶级物理赛事的HiPhO基准测试中,P1-235B-A22B表现卓越,斩获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜首位。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

这一成绩超越了GPT-5的11金和Grok-4的10金,标志着开源模型在物理推理能力上已实现对标甚至超越主流闭源模型。

构建专业评测体系:HiPhO基准

为精准评估模型在物理奥赛中的表现,研究团队构建了HiPhO基准测试——这是首个专注于最新物理奥赛、采用人类对齐评估的权威基准。

HiPhO涵盖了2024-2025年最新的13场奥林匹克级别物理竞赛,包括IPhO、APhO、EuPhO等国际和区域赛事。该基准采用官方评分标准,对答案和解题过程进行细粒度评分,确保评估结果与人类评审严格对齐。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

多阶段强化学习策略

研究团队通过高质量的数据提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均包含完整上下文信息、可验证答案及标准解题过程。

P1系列模型采用多阶段强化学习流程进行训练,关键策略包括:

  • 上下文窗口扩展:逐步扩展模型最大生成长度,使其能够探索更长的推理链,提升高复杂度问题的解决能力
  • 通过率过滤:基于通过率统计筛选数据,排除过于简单或困难的任务
开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

协同进化多智能体系统PhysicsMinions

为突破单模型极限,团队开发了PhysicsMinions——专为物理推理设计的协同进化多智能体系统,包含三大交互模块:

  • 视觉模块:观察和验证多模态问题,提取结构化视觉信息
  • 逻辑模块:生成初始解决方案,通过自我改进和反思迭代优化解答
  • 审核模块:执行双阶段验证,检查物理一致性与逻辑推理正确性

通过这种协同进化机制,系统持续提升复杂物理问题的推理质量与鲁棒性。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

评测结果:领跑HiPhO基准

在HiPhO基准测试的综合表现中:

  • P1-235B-A22B展现出卓越的物理推理能力,与Gemini-2.5系列并列第一,金牌数超越GPT-5、Grok-4等主流闭源模型
  • IPhO 2025上,P1-235B-A22B得分21.2/30,成为首个也是唯一获得金牌的开源模型
  • P1-30B-A3B同样表现出色,获得8金4银1铜,在中等规模模型中表现突出
开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

配备PhysicsMinions多智能体系统后,P1模型性能实现跨越式提升。P1-235B-A22B在HiPhO基准上的平均得分从35.9分提升至38.4分,在所有模型中综合排名第一,超越了Gemini-2.5-Pro和GPT-5等顶尖闭源模型。

通专融合的能力拓展

除了强大的物理推理能力,P1模型在多个领域表现持续提升。P1-30B-A3B相比于基座模型,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性。

开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4

相关资源:

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4402

(0)
上一篇 2025年10月25日 上午9:11
下一篇 2025年10月26日 上午5:14

相关推荐

  • 亚马逊裁员潮背后的AI战略转型:从人力精简到具身智能布局的深层分析

    亚马逊近期宣布的裁员计划,涉及约1.4万名员工,这一举措在科技行业引发了广泛关注。表面上看,这是公司应对经济压力的成本削减行为,但深入分析其背后的战略意图,可以发现这实际上是亚马逊在人工智能时代进行的一次系统性资源重组。本文将从多个维度剖析这一事件,探讨其与AI技术发展的内在联系,以及可能对行业产生的深远影响。 首先,从财务数据来看,亚马逊的裁员决策并非源于…

    2025年10月29日
    8600
  • AI前沿速递:长视频生成突破、视觉文本压缩创新与轻量MoE模型发布

    10月26日 【开源】美团LongCat-Video视频生成模型美团LongCat团队发布基于Diffusion Transformer架构的LongCat-Video模型。该模型创新性地通过“条件帧数量”实现任务区分,原生支持文生视频、图生视频、视频续写三大核心任务,能够实现分钟级长视频的连贯生成,从根源上保障了跨帧时序一致性与物理运动的合理性。 模型链接…

    2025年11月3日
    7100
  • 跨越记忆鸿沟:Anthropic双智能体架构如何破解AI长时任务执行难题

    在人工智能向通用智能体演进的道路上,一个长期存在的技术瓶颈正日益凸显:如何让缺乏持久记忆的AI模型,能够像人类工程师一样,在跨越数小时甚至数天的复杂任务中保持连续性和一致性?这一挑战不仅关乎智能体的实用性,更触及了当前大模型架构的根本局限。 传统大模型智能体面临的核心困境可概括为“上下文窗口依赖症”。无论是GPT-4、Claude还是其他主流模型,其决策和推…

    2025年12月2日
    7300
  • 无界动力获5亿天使融资:具身智能赛道迎来技术-产业双栖领军者

    近日,具身智能领域迎来重磅融资消息——新创公司无界动力宣布完成累计超5亿元的天使轮融资,由红杉中国、线性资本领投,高瓴创投、地平线、华业天成等多家顶级机构跟投。这一融资事件不仅刷新了该赛道早期融资纪录,更因其创始人张玉峰独特的产业背景与团队配置,引发了业界对具身智能商业化路径的深度思考。 从技术演进视角看,具身智能正从实验室概念迈向产业化临界点。无界动力提出…

    2025年11月10日
    8000
  • AI伦理边界:xAI“虚拟女友”Ani背后的生物数据争议与行业警示

    在生成式AI技术狂飙突进的当下,埃隆·马斯克旗下xAI公司推出的虚拟伴侣Ani引发了前所未有的伦理争议。这款金发双马尾的动漫风格AI女友,表面上代表着AI情感交互的前沿探索,实则暴露了科技公司在数据采集与隐私保护之间的严重失衡。本文将从技术实现、伦理困境、行业影响三个维度,深入剖析这一事件背后的深层问题。 从技术架构来看,Ani代表了当前多模态AI系统的高度…

    2025年11月8日
    8600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注