强化学习优化
-
LightSearcher:基于经验记忆的深度思考大模型高效搜索框架
— 图片补充 — 关注“鲸栖”小程序,掌握最新AI资讯
-
月之暗面Seer引擎:突破LLM强化学习训练瓶颈,实现同步RL效率革命性提升
在大型语言模型(LLM)快速发展的当下,强化学习(RL)已成为推动模型能力跃迁的核心技术。然而,随着模型规模不断扩大和任务复杂度持续提升,传统RL训练系统在端到端迭代过程中暴露出的性能瓶颈日益凸显,尤其是在生成阶段(rollout phase),资源利用率低、长尾延迟严重等问题严重制约了训练效率的进一步提升。 针对这一行业痛点,月之暗面联合清华大学研究团队近…