国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

近日,上海人工智能实验室团队推出的开源模型家族P1在国际物理奥林匹克竞赛(IPhO)2025理论考试中取得历史性突破。其旗舰模型P1-235B-A22B以21.2/30分的成绩,成为首个达到金牌线的开源模型,仅次于Gemini-2.5-Pro与GPT-5。这一成就不仅标志着国产大模型在复杂科学推理领域的重大进展,更通过创新的多阶段强化学习与智能体框架设计,为AI解决高难度学科问题提供了全新范式。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

深入分析P1的成功,核心在于其构建的高质量物理训练数据集与创新的训练方法论。团队首先构建了由5065道奥赛级文本物理题构成的数据集,其中包含4126道物理奥赛真题与939道竞赛教材题目,覆盖力学、电磁学、热学、光学、近代物理等五大领域和二十五个子领域。这些题目具有极高的复杂度:平均题干长达367 tokens,最长达到3386 tokens;平均解答需349 tokens,最长解答达5519 tokens。每道题目均包含题目描述、完整专家解答以及可规则验证的标准答案,为模型学习提供了结构化基础。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

为确保数据质量,团队采用Gemini-2.5-Flash、Claude-3.7-Sonnet、GPT-4o三大模型进行交叉验证,并人工检查OCR错误,删除无法通过规则判定的题目。这种严谨的数据构建流程,为后续训练奠定了坚实基础。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

在训练策略上,P1采用了创新的多阶段强化学习流程。团队将物理解题形式化为序列决策问题:模型在每个状态下生成下一个token,直至输出完整解答;最终奖励由模型解出的答案正确性决定。不同于传统的PPO方法,团队采用了为长链推理优化的GSPO(Group Sequence Policy Optimization)。该方法在每个题目上采样若干条完整解答作为一组,通过相对收益构建优势函数,有效缓解了物理题奖励稀疏的问题——解题过程涉及成千上万个token,但仅在最后一步才有明确信号。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

为支持GSPO稳定工作,团队构建了精密的奖励系统和判题器。训练阶段,模型必须严格按照预设格式输出最终答案,使判题器能可靠提取答案,并通过符号计算工具判断与标准答案的等价性。针对物理题常包含多个子问题的特点,团队采用类似程序评测的“测试用例式”奖励聚合方式,将最终奖励定义为多个子问题得分的综合。整个训练过程严格使用规则判题器,避免模型学习讨好模型型判题器的写作风格。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

随着训练推进,模型会出现可学习性下降问题,表现为梯度失效、熵急剧下降、模板化表达等。团队对此提出两项创新处理:首先,基于题目难度进行动态数据筛选,仅保留基座模型通过率在0到0.7之间的题目,避免完全无法解答或过于简单的题目影响训练效果;其次,逐步扩展模型探索范围,增加每题采样解答条数,并扩大可生成最大长度,使模型能处理越来越复杂的问题。这种多阶段策略确保了模型能力提升的同时保持稳定的可学习性。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

此外,团队还解决了训练与推理阶段的概率偏差问题。由于推理通过vLLM或SGLang等专门引擎进行,而训练在Megatron或FSDP框架中完成,二者浮点实现存在微小差异。为此,团队引入Truncated Importance Sampling(TIS),用截断的策略比重校正这种偏移,确保训练策略与真实采样策略的一致性。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

在推理阶段,P1引入了专为物理推理设计的协同进化多智能体系统——PhysicsMinions,显著提升了解题质量。该系统在原设计中包含三个交互模块:视觉工作室、逻辑工作室和审查工作室。视觉工作室负责观察、验证并反思输入内容,将其转化为结构化信息;逻辑工作室中,solver生成初始解答,introspector通过自我改进机制优化解答;审查工作室则进行双阶段审查,Physics-Verifier检查物理一致性,General-Verifier检查逻辑、推理过程和计算细节。若任一审查未通过,系统会生成详细错误报告返回逻辑工作室,由introspector修正解答后重新提交审查,直至解答连续通过预设次数的审查。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

值得注意的是,由于P1是纯文本模型,系统中的视觉工作室被关闭,但逻辑工作室与审查工作室的协作仍显著提高了推理稳定性与表现。团队在逻辑工作室中实例化P1作为solver,在审查工作室中以P1分别担任两个审查器,实现了PhysicsMinions内的推理协同过程。

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

实验验证了该框架的有效性。在团队构建的包含最新13项顶级物理竞赛的HiPhO基准上,引入PhysicsMinions后,P1-235B-A22B平均成绩从35.9提升至38.4,在所有33个顶流模型中排名第一,超过Gemini-2.5-Pro(37.7)和GPT-5(37.4)。更令人瞩目的是,在中国物理奥林匹克(CPhO)2025人工评分中,P1-235B-A22B获得227/320分,显著超过当届全国金牌第一名人类选手的199分。在13场国际物理竞赛中,P1系列模型取得12金1银的优异成绩。

开源方面,团队承诺从模型、算法到评测集、智能体框架的全链路开源,这将极大推动AI在科学教育、竞赛辅助等领域的应用发展。P1的成功不仅展示了国产大模型在高难度学科任务上的突破潜力,更为AI与复杂科学推理的结合提供了可复现的技术路径,预示着AI在专业化、深层次问题解决中的广阔前景。

— 图片补充 —

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破

国产开源模型P1登顶国际物理奥赛:多阶段强化学习与智能体框架的协同突破


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6462

(0)
上一篇 2025年11月22日 上午10:34
下一篇 2025年11月22日 上午10:52

相关推荐

  • 通用导航新纪元:NavFoM如何用统一范式突破机器人跨任务跨本体壁垒

    在机器人技术快速演进的今天,导航能力被视为移动操作系统的基石,直接决定了机器人的工作半径与应用场景的广度。然而,长期以来,导航算法的研发往往陷入“专用化”的窠臼——针对特定任务(如视觉语言导航、目标搜索)或特定机器人本体(如四足机器狗、轮式机器人、无人机)进行定制化设计。这种割裂的研究范式虽然能在单一领域取得进展,却严重忽视了不同任务与不同机器人平台之间存在…

    2025年11月9日
    200
  • 国产AI实现空间智能突破:SenseNova-SI超越国际顶尖模型,揭示AI技术范式变革

    空间智能领域迎来里程碑:SenseNova-SI实现全面超越 在空间智能这一前沿研究领域,一项重要进展近日引发行业关注。商汤科技发布的开源模型SenseNova-SI,在多项关键能力评估中超越了李飞飞团队研发的Cambrian-S模型,标志着国产AI技术在该领域取得突破性进展。 从空间感知能力的综合评估数据来看,SenseNova-SI在多个维度上的表现均优…

    18小时前
    700
  • 从通用炫技到垂直深耕:斑马口语如何以AI Agent技术重塑英语教育新范式

    2025年,AI产业的焦点正从实验室的惊艳演示转向商业价值的深度挖掘。当OpenAI、Google等巨头仍在探索多模态大模型的通用可能性时,一场决定AI真正落地效能的战役已在教育、医疗、客服等垂直领域悄然打响。在这场产业化竞赛中,斑马推出的业内首个实现AI外教一对一教学的「斑马口语」产品,不仅标志着AI Agent在垂直行业的实质性突破,更以系统性的技术攻坚…

    2025年11月18日
    300
  • WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

    在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主…

    2025年10月29日
    200
  • 从技术突破到生态重塑:快手AI战略的产业级价值兑现路径分析

    2025年被广泛视为AI技术从实验室走向产业应用的关键转折点。在这一历史性节点上,以多模态生成、智能体(Agent)为代表的AI技术正加速探索更高效、更贴合实际需求的应用形态。其中最具战略意义的趋势在于:AI技术正在从单点创新迈向系统性、产业级价值的全面兑现。对于所有致力于数字化转型的企业而言,这不仅是一个技术命题,更是一个关乎未来竞争力的核心战略课题。 在…

    2025年11月3日
    400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注