强化学习 - 鲸林向海

推理模型效率革命：英伟达DLER如何用强化学习实现“短而精”的思考

在通往通用人工智能（AGI）的道路上，推理能力被视为核心瓶颈之一。过去一年，以OpenAI o系列、DeepSeek-R1、Qwen为代表的推理模型通过“长链思维”策略显著提升了复杂问题解决能力，但这种进步伴随着沉重的代价：推理链条不断延长导致Token消耗呈指数级增长，响应速度大幅下降，部署成本急剧攀升。当DeepSeek-R1在AIME-24数学基准上需…

2025年11月4日

325000

AI产业动态

ROVER：颠覆传统强化学习范式，随机策略价值评估开启LLM数学推理新纪元

在人工智能领域，大语言模型（LLM）的数学推理能力一直是衡量其智能水平的重要标尺。近年来，基于可验证奖励的强化学习（RLVR）方法，如PPO、GRPO等，已成为提升模型推理能力的主流技术路径。然而，这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷：训练稳定性差、计算复…

2025年10月31日

336000

AI产业动态

开源模型首夺国际物理奥赛金牌！上海AI Lab打造235B参数模型超越GPT-5与Grok-4

上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛（IPhO）中首次达到金牌分数线，并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一，超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions，标志着开源模型在复杂物理推理能力上实现重要突破。

2025年10月25日

523000