强化学习 - 鲸林向海

开源项目

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform

智平方发布全球首个一站式具身智能开源社区AlphaBrain Platform 特斯拉开源硬件专利后，所有人都在等：中国公司如何回应？现在答案来了——跟风硬件意义有限，要开源就找比硬件更具价值的东西。 4月22日，智平方正式发布 AlphaBrain Platform开源社区。这是全球首个一站式、开箱即用的具身智能模型开源社区。值得注意的是，这…

2026年4月22日

281000

大模型工程

MIA记忆智能体：让AI告别“失忆式工作”，实现经验到能力的持续进化

本文共同一作是上海创智学院博士生乔静阳、孟炜程，通讯作者是华东师范大学张志忠副教授，项目主导人是国家优青谢源教授。 Never memorize something that you can look up.— Albert Einstein 当前多数智能体仍处于“失忆式工作”模式：每次任务都从零开始检索，推理路径无法沉淀，失败经验也无法积累。尽管支持多轮交…

2026年4月19日

278000

大模型训练

Sol-RL：NVIDIA联合团队突破扩散模型强化学习算力瓶颈，FP4探索+BF16训练实现高效对齐

关键词：扩散模型强化学习（Diffusion RL）、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构在文本到图像扩散模型的后训练对齐领域，GRPO 等强化学习方法虽效果显著，却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架，并未采用对模型进行直接粗暴…

2026年4月13日

241000

大模型工程

HermesAgent凭什么更胜一筹？四大进化算法协同，破解AI智能体Token黑洞难题

HermesAgent 凭什么更胜一筹？四大进化算法协同，破解 AI 智能体 Token 黑洞难题（上）近期，AI 智能体领域涌现出多个备受关注的项目，例如 OpenClaw、ClaudeCode、DeerFlow 等。在众多竞争者中，HermesAgent 脱颖而出。它究竟凭借什么优势实现超越？一、OpenClaw 的确定性成果短板与 Token 黑洞…

2026年4月10日

432000

AI产业动态

Cursor套壳Kimi风波再起：Composer 2技术报告自证“有技术地套”，网友却不买账

Cursor套壳Kimi的争议仍在继续。近日，Cursor发布了Composer 2的技术报告，试图证明其并非简单套用，而是进行了有技术含量的、循序渐进的研发工作。报告强调，其方法核心仍是此前提及的预训练与强化学习相结合的技术路线。与此前不同的是，Cursor在报告中明确标注了基础模型来源为Kimi K2.5。这一迅速且明确的署名行为，显示出其态度转…

2026年3月27日

404000

AI产业动态

字节跳动Seed团队突破机器人灵巧操作难题：零样本仿真到现实部署，让机器人拥有“触觉”与“力感”

实现具备人类水平的灵巧操作能力，是机器人学领域的核心挑战之一。尽管多指灵巧手在硬件上已具备潜力，但由于接触物理的复杂性和非理想的驱动机制，训练能够直接部署在真实硬件上的控制策略仍然非常困难。针对这一关键问题，一项研究论文《Closing the Reality Gap: Zero-Shot Sim-to-Real Deployment for Dexter…

2026年3月25日

686000

开源项目

SWE-MiniSandbox：无需容器，低成本训练你的AI编程助手！北大团队开源轻量级SWE Agent训练框架

本工作由北京大学王选计算机研究所赵东岩、张辉帅老师团队完成，第一作者为北京大学前沿交叉学科研究院硕士生袁旦龙。随着软件工程智能体（SWE Agent）因其明确的应用前景与价值而备受关注，从业者尝试训练自己的智能体时却面临挑战。当前主流训练方法依赖容器技术（如 Docker）实现环境隔离与复现，但其高昂的基础设施与运维成本，尤其在扩展训练规模时，构成了显著的…

2026年3月22日

465000

AI产业动态

机器人精细动作大突破！Physical Intelligence用RL token技术，十几分钟学会插网线拧螺丝

都说机器人学习速度慢，精细动作做不好，影响了进厂打螺丝的进度。以后，这可能不成问题了。具身智能领域的Physical Intelligence公布了一项新进展：他们借助一种名为「RL token」的方法，仅需十几分钟或几小时的真实世界经验，就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。过去一年，机器人已经能干不少粗略的活儿，比如叠衣服、端…

2026年3月21日

423000

AI产业动态

Cursor新模型Composer 2：性能超越Claude Opus 4.6，价格却“脚踝斩”，背后竟是“做笔记”强化学习黑科技

Cursor近日发布了其新一代编程模型Composer 2。该模型在多项基准测试中表现超越Claude Opus 4.6，同时定价显著降低。其背后核心是一种名为“自我总结”的新型强化学习训练方法。性能超越Claude，价格大幅降低 Composer 2是Cursor推出的最新编程模型。根据官方信息，该模型在包括Terminal-Bench 2.0和SWE-…

2026年3月20日

691000

开源项目

DeepGen 1.0：5B参数统一多模态生成编辑模型开源，4060ti 10秒出图，多项指标超越大4倍工业模型

DeepGen 1.0：开源统一多模态生成编辑模型近年来，统一多模态生成编辑模型正朝着参数规模庞大的方向发展，动辄数十亿参数，这为普通研究团队的复现和个人本地部署带来了显著挑战。近日，由上海创智学院、复旦大学和中国科学技术大学等机构的研究团队联合发布了统一多模态生成编辑模型 DeepGen 1.0。该模型总参数量为 5B（其中视觉语言模型部分3B，扩散T…

2026年3月18日

353000