强化学习

  • DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型

    DeepGen 1.0:开源统一多模态生成编辑模型 近年来,统一多模态生成编辑模型正朝着参数规模庞大的方向发展,动辄数十亿参数,这为普通研究团队的复现和个人本地部署带来了显著挑战。 近日,由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B(其中视觉语言模型部分3B,扩散T…

    1天前
    9200
  • RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%

    在具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战: 模仿学习在推理过程中产生的长序列误差累积问题; 真机强化学习成本高昂,难以规模化部署。 针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思…

    2天前
    7200
  • 告别AI作弊与偷懒:强化学习如何成为真正的GPU内核优化专家

    关键词:强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化 告别“作弊”与“偷懒”,让强化学习成为真正的 GPU 内核优化专家 训练一个能够编写高效 GPU 内核的 AI 程序员,是加速大模型训练的关键。然而,在实践中,AI 往往会陷入两种困境:一是“作弊”,即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励;二是“偷懒”,即只解决简单…

    2天前
    6400
  • OpenClaw-RL:让AI越用越聪明的开源框架,北大博士团队破解AI智能体训练难题

    过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。 那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其…

    3天前
    19500
  • 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

    论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。 基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thou…

    6天前
    10800
  • LeRobot v0.5.0重磅发布:全面支持类人机器人Unitree G1,硬件生态与算法能力双突破

    自 v0.4.0 版本以来,项目已合并超过 200 个 PR,并新增了 50 多位贡献者。因此,LeRobot v0.5.0 成为迄今为止规模最大的一次发布,在几乎所有关键方向上都实现了显著扩展:支持更多机器人(包括首个类人机器人)、集成更多策略模型(包括回归的自回归 VLA)、提供更快的数据集处理流程、支持直接从 Hub 加载的仿真环境,以及基于 Pyth…

    2026年3月11日
    27101
  • OpenAI人才地震再升级!核心VP主动降级跳槽Anthropic,只为回归一线RL研究

    OpenAI人才地震再升级!核心VP主动降级跳槽Anthropic,只为回归一线RL研究 前OpenAI研究副总裁马克斯·施瓦泽(Max Schwarzer)近日宣布离职,并已加入竞争对手Anthropic。这位主导了o1、o3及GPT-5系列模型后期训练的核心人物,其离职理由并非被高薪挖角,而是“渴望回归一线独立贡献者(IC)的研究工作”。 施瓦泽在Ope…

    2026年3月5日
    17100
  • AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

    2026年开年,智能体(Agent)依然是全球AI领域最受关注的赛道之一。由OpenClaw(原Clawbot)掀起的Agent热潮持续发酵,其影响力甚至让“一人公司”的概念首次具备了现实落地的可能性。 近日,OpenClaw在GitHub上的Star数量已超越React和Linux,成为非资源/教程类开源软件项目中最为瞩目的存在。 从浏览器智能体到代码智能…

    2026年3月4日
    41200
  • OmniXtreme:人形机器人突破极限动作壁垒,实现连续翻转与霹雳舞表演

    在春晚上,宇树机器人带来的武术表演《武 BOT》令人印象深刻。表演中,人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵与武术动作,展现了高动态、高协同的全自主集群控制能力。 如今,北京通用人工智能研究院(BIGAI)、宇树科技、上海交通大学与中国科学技术大学等机构的一项新研究,在此方向上更进一步。他们提出了 OmniXtreme:一种能够执行各类极限动…

    2026年3月3日
    25600
  • LLM与强化学习融合:开启智能推荐新纪元,首篇系统性综述发布

    强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。近期,大语言模型(LLM)的崛起带来了新机遇。LLM 凭借常识储备、推理能力和语义天赋,不仅能让智能体更懂用户,还能充当高保真的环境模拟器。LL…

    2026年3月3日
    17700