强化学习
-
开源模型首夺国际物理奥赛金牌!上海AI Lab打造235B参数模型超越GPT-5与Grok-4
上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛(IPhO)中首次达到金牌分数线,并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一,超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions,标志着开源模型在复杂物理推理能力上实现重要突破。
-
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。