强化学习
-
HermesAgent凭什么更胜一筹?四大进化算法协同,破解AI智能体Token黑洞难题
HermesAgent 凭什么更胜一筹?四大进化算法协同,破解 AI 智能体 Token 黑洞难题(上) 近期,AI 智能体领域涌现出多个备受关注的项目,例如 OpenClaw、ClaudeCode、DeerFlow 等。在众多竞争者中,HermesAgent 脱颖而出。它究竟凭借什么优势实现超越? 一、OpenClaw 的确定性成果短板与 Token 黑洞…
-
Cursor套壳Kimi风波再起:Composer 2技术报告自证“有技术地套”,网友却不买账
Cursor套壳Kimi的争议仍在继续。 近日,Cursor发布了Composer 2的技术报告,试图证明其并非简单套用,而是进行了有技术含量的、循序渐进的研发工作。 报告强调,其方法核心仍是此前提及的预训练与强化学习相结合的技术路线。 与此前不同的是,Cursor在报告中明确标注了基础模型来源为Kimi K2.5。 这一迅速且明确的署名行为,显示出其态度转…
-
字节跳动Seed团队突破机器人灵巧操作难题:零样本仿真到现实部署,让机器人拥有“触觉”与“力感”
实现具备人类水平的灵巧操作能力,是机器人学领域的核心挑战之一。尽管多指灵巧手在硬件上已具备潜力,但由于接触物理的复杂性和非理想的驱动机制,训练能够直接部署在真实硬件上的控制策略仍然非常困难。 针对这一关键问题,一项研究论文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexter…
-
SWE-MiniSandbox:无需容器,低成本训练你的AI编程助手!北大团队开源轻量级SWE Agent训练框架
本工作由北京大学王选计算机研究所赵东岩、张辉帅老师团队完成,第一作者为北京大学前沿交叉学科研究院硕士生袁旦龙。 随着软件工程智能体(SWE Agent)因其明确的应用前景与价值而备受关注,从业者尝试训练自己的智能体时却面临挑战。当前主流训练方法依赖容器技术(如 Docker)实现环境隔离与复现,但其高昂的基础设施与运维成本,尤其在扩展训练规模时,构成了显著的…
-
机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝
都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。 具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。 过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端…
-
Cursor新模型Composer 2:性能超越Claude Opus 4.6,价格却“脚踝斩”,背后竟是“做笔记”强化学习黑科技
Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6,同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。 性能超越Claude,价格大幅降低 Composer 2是Cursor推出的最新编程模型。根据官方信息,该模型在包括Terminal-Bench 2.0和SWE-…
-
DeepGen 1.0:5B参数统一多模态生成编辑模型开源,4060ti 10秒出图,多项指标超越大4倍工业模型
DeepGen 1.0:开源统一多模态生成编辑模型 近年来,统一多模态生成编辑模型正朝着参数规模庞大的方向发展,动辄数十亿参数,这为普通研究团队的复现和个人本地部署带来了显著挑战。 近日,由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B(其中视觉语言模型部分3B,扩散T…
-
RISE突破VLA瓶颈:组合式世界模型让机器人在想象空间完成强化学习,任务成功率提升超45%
在具身智能的发展中,视觉-语言-动作模型已成为通用操作任务的核心框架。然而,面对长程规划、柔性物体操作、精细双臂协同及动态交互等复杂场景时,VLA模型仍面临两大根本性挑战: 模仿学习在推理过程中产生的长序列误差累积问题; 真机强化学习成本高昂,难以规模化部署。 针对这些挑战,香港大学李弘扬老师带领的OpenDriveLab团队近期提出了RISE方法。其核心思…
-
告别AI作弊与偷懒:强化学习如何成为真正的GPU内核优化专家
关键词:强化学习、Triton 内核生成、奖励破解、惰性优化、多轮优化 告别“作弊”与“偷懒”,让强化学习成为真正的 GPU 内核优化专家 训练一个能够编写高效 GPU 内核的 AI 程序员,是加速大模型训练的关键。然而,在实践中,AI 往往会陷入两种困境:一是“作弊”,即利用评测系统的漏洞生成看似高效、实则无效的代码以获取高奖励;二是“偷懒”,即只解决简单…
-
OpenClaw-RL:让AI越用越聪明的开源框架,北大博士团队破解AI智能体训练难题
过去一周,一款名为 OpenClaw 的红色卡通龙虾形象 AI 智能体引发了广泛关注。这款能够执行具体任务的智能体,其体验过程颇具戏剧性:从用户争相部署,到因使用问题(如账号安全、文件误操作)而匆忙卸载,周期可能短至一周。 那么,如何让此类 AI 智能体在使用中持续改进,而非引发问题?北京大学博士、美国普林斯顿大学博士后研究员杨灵(合作导师为王梦迪教授)及其…
