强化学习 - 鲸林向海

强化学习重塑记忆系统：Mem-α如何让大模型学会“主动记忆”

在人工智能领域，大语言模型的快速发展正将“记忆”问题推向技术前沿。当前，即使是最先进的GPT-4.1等模型，在处理持续增长的交互时，仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令，导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现，标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学…

2025年11月7日

207000

AI产业动态

强化学习教父Sutton的回归宣言：当AI学完人类数据，经验驱动的智能时代正在开启

在生成式人工智能（GenAI）席卷全球、大模型发布会此起彼伏的喧嚣中，2024年图灵奖得主、强化学习奠基人Richard Sutton的动向，如同一枚投入平静湖面的石子，激起了AI研究圈的深层涟漪。这位被誉为“强化学习教父”的科学家，在获得学术最高荣誉后，并未选择加入科技巨头或继续纯理论研究，而是以首席科学官的身份加盟了一家名不见经传的初创公司Experie…

2025年11月7日

168000

AI产业动态

推理模型效率革命：英伟达DLER如何用强化学习实现“短而精”的思考

在通往通用人工智能（AGI）的道路上，推理能力被视为核心瓶颈之一。过去一年，以OpenAI o系列、DeepSeek-R1、Qwen为代表的推理模型通过“长链思维”策略显著提升了复杂问题解决能力，但这种进步伴随着沉重的代价：推理链条不断延长导致Token消耗呈指数级增长，响应速度大幅下降，部署成本急剧攀升。当DeepSeek-R1在AIME-24数学基准上需…

2025年11月4日

203000

AI产业动态

ROVER：颠覆传统强化学习范式，随机策略价值评估开启LLM数学推理新纪元

在人工智能领域，大语言模型（LLM）的数学推理能力一直是衡量其智能水平的重要标尺。近年来，基于可验证奖励的强化学习（RLVR）方法，如PPO、GRPO等，已成为提升模型推理能力的主流技术路径。然而，这些方法本质上仍沿袭传统强化学习的策略迭代框架——通过策略评估与策略改进的循环过程优化模型性能。这种范式在LLM推理任务中暴露出三大核心缺陷：训练稳定性差、计算复…

2025年10月31日

215000

AI产业动态

开源模型首夺国际物理奥赛金牌！上海AI Lab打造235B参数模型超越GPT-5与Grok-4

上海AI Lab研发的开源模型P1-235B-A22B在国际物理奥林匹克竞赛（IPhO）中首次达到金牌分数线，并在涵盖全球13项顶级赛事的HiPhO基准测试中以12金1银的成绩与谷歌Gemini-2.5-Pro并列第一，超越GPT-5与Grok-4。该成果依托多阶段强化学习训练与协同进化多智能体系统PhysicsMinions，标志着开源模型在复杂物理推理能力上实现重要突破。

2025年10月25日

408000