AI训练

  • OpenClaw-RL:让AI越用越聪明的开源框架,北大博士团队破解AI智能体训练难题

    过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。 那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其…

    2026年3月16日
    35700
  • AReaL v1.0发布:一键接入RL训练,OpenClaw等Agent框架迎来强化学习新纪元

    2026年开年,智能体(Agent)依然是全球AI领域最受关注的赛道之一。由OpenClaw(原Clawbot)掀起的Agent热潮持续发酵,其影响力甚至让“一人公司”的概念首次具备了现实落地的可能性。 近日,OpenClaw在GitHub上的Star数量已超越React和Linux,成为非资源/教程类开源软件项目中最为瞩目的存在。 从浏览器智能体到代码智能…

    2026年3月4日
    53800
  • 从监狱到AI独角兽:Firmus如何用690亿债务融资打造1.6GW绿色算力工厂

    澳洲AI基础设施独角兽狂吸金,要建出1.6GW的数据“巨兽”。 他蹲过大牢,做过加密货币,现在转投AI基础设施,一次直接融资超100亿美元。这一句话,浓缩了澳洲AI基础设施独角兽Firmus联合创始人兼首席执行官Oliver Curtis的十年。 智东西2月14日报道,2月9日,Firmus宣布获得了约100亿美元(约合人民币690亿元) 的债务融资,融资由…

    2026年2月14日
    12800
  • GRPO算法赋能多智能体系统:实现复杂任务规划的革命性训练方法

    面向长时程任务的智能体系统需要具备规划、正确使用工具以及逐步执行的能力。大多数现代智能体系统依赖推理,每次组件调用都从零开始,且缺乏事先训练,这会显著增加长时程任务中任一步骤出现错误规划或错误工具调用的概率。GRPO算法能够持续训练智能体在长任务中进行规划与正确执行。一个典型的基于GRPO的智能体训练系统大致如下所示…… GRPO如何影响智能体训练: 基于组…

    2026年2月13日
    19400