自 v0.4.0 版本以来,项目已合并超过 200 个 PR,并新增了 50 多位贡献者。因此,LeRobot v0.5.0 成为迄今为止规模最大的一次发布,在几乎所有关键方向上都实现了显著扩展:支持更多机器人(包括首个类人机器人)、集成更多策略模型(包括回归的自回归 VLA)、提供更快的数据集处理流程、支持直接从 Hub 加载的仿真环境,以及基于 Python 3.12 与 Transformers v5 的现代化代码库。无论您是在仿真环境中训练策略,还是在真实硬件上部署应用,v0.5.0 都带来了丰富的新功能。
TL;DR
LeRobot v0.5.0 新增了对 Unitree G1 类人机器人的完整支持(含全身控制模型),并引入了新的策略,包括 Pi0-FAST 自回归 VLA 和用于实现更快推理响应的 Real-Time Chunking(实时分块) 技术。同时,版本还加入了 流式视频编码,消除了任务录制间的等待时间。
此外,本次发布推出了 EnvHub,允许直接从 Hugging Face Hub 加载仿真环境;集成了 NVIDIA IsaacLab-Arena;并对代码库进行了全面的现代化升级,包括迁移至 Python 3.12+、适配 Transformers v5 以及引入 第三方策略插件系统。
硬件:支持的机器人数量再创新高
LeRobot v0.5.0 大幅扩展了其支持的硬件设备范围,涵盖了从机械臂、移动机器人到完整类人机器人的多种平台。
Unitree G1 类人机器人
本次发布中最重要的硬件新增内容是 对 Unitree G1 类人机器人的完整支持。这是 LeRobot 首次集成类人机器人,且支持功能全面:
- 运动能力:可实现行走、导航及环境移动。
- 操作能力:能够执行精细的物体操作任务。
- 远程操控:通过直观的遥操作界面远程控制 G1。
- 全身控制:可协调行走与操作,以完成复杂的真实世界任务。
G1 的加入标志着 LeRobot 在通用机器人方向上迈出了重要一步——从桌面机械臂扩展到 具备完整身体的具身智能系统。您可以按照相关文档进行尝试。

OpenArm 与 OpenArm Mini
本次新增了对 OpenArm 机械臂及其配套 OpenArm Mini 遥操作设备的支持。OpenArm 是一款性能出色的机械臂,现已实现完整的 LeRobot 集成,而 Mini 则作为其自然的遥操作设备。
两者均支持 双臂配置,可用于构建双机械臂系统,以完成更复杂的操作任务。
更多机器人
硬件生态仍在持续扩展:
- Earth Rover:LeRobot 首次支持的移动机器人平台,适用于户外导航和地面移动任务。
- OMX Robot:新增的机械臂平台,支持可配置的夹爪参数和校准功能。
- SO-100/SO-101 统一实现:我们将 SO-100 和 SO-101 的实现整合到了一个更简洁的代码库中(包括双臂配置),减少了代码重复,更易于维护,同时保持了原有功能。
CAN 总线电机
通过新增对 CAN 总线 电机控制器的支持,LeRobot 现在能够接入更高性能的执行器:
- RobStride:基于 CAN 的电机控制器,适用于高扭矩应用。
- Damiao:另一种 CAN 总线电机控制器,进一步扩展了兼容硬件范围。
这意味着 LeRobot 现在不仅能支持 Dynamixel 和 Feetech 执行器,还能够驱动更多 专业级执行器。
策略模型:不断扩展的模型库
本次发布为 LeRobot 新增了 6 种策略或技术,进一步推动了开源机器人学习的发展。
Pi0-FAST:自回归 VLA
Pi0-FAST 将自回归的 视觉-语言-动作模型 引入 LeRobot,并采用了 FAST(频域动作序列标记化) 方法。
与 Pi0 使用的流匹配方法不同,Pi0-FAST 使用 基于 Gemma 300M 的自回归动作专家模型 来生成离散化的动作标记,实现了:
- FAST 标记化:动作被标记化,便于自回归解码,使用了专门的 FAST 动作标记器。
- 灵活解码:可通过温度参数和最大解码步数,在推理速度与动作质量之间进行权衡。
- 兼容 RTC:可与实时分块技术结合,实现更快速的推理。
实时分块
实时分块 是一项来自 Physical Intelligence 的推理阶段技术,可以显著提升基于流匹配策略的响应速度。
传统方法需要等待一个完整的动作序列生成完毕后再重新规划,而 RTC 会 持续融合新的预测与正在执行的动作,从而使机器人行为更加平滑、响应更快。
RTC 并非独立策略,而是一个增强模块,可用于 Pi0 系列、SmolVLA 与 Diffusion 等策略。
在真实机器人部署(对延迟敏感的场景)中,这是一项非常重要的改进。
Wall-X
Wall-X 是一个新的 VLA 策略,它基于 Qwen2.5-VL 构建,并使用流匹配方法进行动作预测。
Wall-X
Wall-X 将 Qwen2.5-VL 的视觉语言理解能力 与 flow-matching 控制头 相结合,实现了 跨机器人形态控制。
bash
pip install lerobot[wall_x]
lerobot-train
--policy.type=wall_x
--dataset.repo_id=lerobot/aloha_sim_insertion_human
X-VLA
X-VLA 为 LeRobot 引入了 基于 Florence-2 的视觉语言动作模型。
该模型基于 Microsoft 的 Florence-2 视觉语言模型,为机器人学习提供了另一种基础模型选择,增加了模型多样性。
- 训练指南:https://hf.co/docs/lerobot/xvla
- 基础模型:https://hf.co/lerobot/xvla-base
bash
pip install lerobot[xvla]
lerobot-train
--policy.type=xvla
--dataset.repo_id=lerobot/bimanual-so100-handover-cube
SARM
SARM 旨在解决机器人学习中的 长时序任务 难题。
与传统使用单一线性进度信号的方法不同,SARM 能够 同时预测任务阶段以及阶段内的进度,从而更精确地描述任务进展,提升复杂多步骤操作任务的训练效果。
- 文档:https://hf.co/docs/lerobot/sarm
PEFT 支持
现在,你可以使用 LoRA 等参数高效微调方法 对大型视觉语言动作模型进行微调,而无需修改核心训练流程。
PEFT 配置在策略层进行管理,允许用户以较少的计算资源将大型基础模型适配到特定的机器人和任务上。
- 文档:https://hf.co/docs/lerobot/peft_training
bash
lerobot-train
--policy.type=pi0
--policy.peft_config.use_peft=true
--dataset.repo_id=lerobot/aloha_sim_insertion_human
数据集:更快的录制与训练
本次发布对数据集处理流程进行了重大优化,显著提升了 数据采集和训练速度。
流式视频编码
过去录制数据集时,每个回合结束后都需要等待视频编码完成。现在,通过 流式视频编码,视频帧在采集时即可实时编码,实现了 回合间的零等待时间。系统还支持 自动检测硬件编码器,如果 GPU 提供视频编码能力,将自动启用。
python
dataset = LeRobotDataset.create(
repo_id="my/dataset",
fps=30,
video_backend="auto",
streaming_encoding=True,
)
性能大幅提升
在底层实现中,我们修复了数据访问瓶颈并重构了图像处理流程:
- 图像训练速度提升 10 倍:优化了图像变换流程并修复了隐藏的数据访问瓶颈。
- 编码速度提升 3 倍:默认启用并行编码,并根据数据类型动态调整压缩级别。
- 更高的 CPU 利用率:录制和创建数据集时的资源使用更加高效。
新的数据集工具
数据集编辑工具持续增强:
- 子任务支持:可以在回合中标注子任务,支持层级任务学习。
- 图像转视频:将现有图像数据集转换为视频格式,提高存储效率,并支持将多个回合合并到同一视频文件。
- 更多编辑操作:新增数据集检查、任务修改工具,并修复了拆分、合并、特征编辑等操作。
- 更多配置选项:可自定义视频编码格式、容差设置和元数据缓冲大小。
EnvHub:从 Hub 加载仿真环境
EnvHub 允许 LeRobot 直接从 Hugging Face Hub 加载仿真环境。
过去需要在本地安装并手动注册环境,现在只需指定 Hub 仓库即可自动下载环境代码并注册到 Gymnasium,直接用于训练和评估。Hub 环境使用 HubEnvConfig,会下载并执行远程的 make_env 函数。
bash
lerobot-train
--env.type=hub
--env.hub_path="username/my-custom-env"
--policy.type=act
这大大降低了分享自定义仿真环境的门槛。更多信息请参阅文档。
- 文档:https://hf.co/docs/lerobot/envhub
- 示例教程(LeIsaac x LeRobot EnvHub):https://hf.co/docs/lerobot/envhub_leisaac
NVIDIA IsaacLab-Arena
我们还集成了 NVIDIA IsaacLab-Arena,为 LeRobot 带来 GPU 加速仿真。
IsaacLab-Arena 提供了一系列基于 NVIDIA Isaac Sim 的操作任务环境,并支持大规模并行环境实例,从而加速强化学习训练。该集成包括专门的前处理和后处理流程,并与 LeRobot 训练流程完全兼容。
- 文档:https://hf.co/docs/lerobot/envhub_isaaclab_arena
代码库:现代化基础设施
本版本对代码库进行了全面升级:
技术更新与社区生态
技术更新
- Python 3.12+:LeRobot 现在要求 Python 3.12 作为最低版本,以利用更现代的语法和获得更好的性能。
- Transformers v5:项目已迁移至 Hugging Face Transformers v5,以保持与最新模型生态的兼容性。
- 第三方策略插件:类似于 v0.4.0 的硬件插件系统,现在用户可以将自定义策略注册为可安装的插件包(例如:
pip install lerobot_policy_mypolicy),并通过--policy.type=mypolicy直接使用,无需修改核心库代码。 - 远程 Rerun 可视化:支持使用 Rerun 远程可视化机器人的遥测数据,并引入了图像压缩功能,以实现更节省带宽的数据流传输。
- 安装流程改进:新增了
uv的安装说明,进一步明确了安装步骤并优化了依赖管理。文档中现已提供清晰的顺序安装流程。 - 文档版本管理:文档现已支持版本化,确保用户能够查阅与当前安装版本对应的文档。
- PyTorch 版本更新:更新了 PyTorch 的版本支持范围,以兼容 NVIDIA Blackwell GPU。
社区与生态
- Discord 社区升级:对 Discord 社区进行了更新,优化了频道结构,使这个活跃的社区交流平台更加清晰、有序。
- GitHub 协作优化:更新了 README,新增了 Issue 和 PR 模板、贡献指南以及自动化标签系统,以降低社区成员的参与门槛。
- ICLR 2026 论文录用:LeRobot 相关论文已被 ICLR 2026 接收。
- LeRobot Visualizer 更新:可视化工具进行了升级,新增了数据集可视化徽章,并改进了整体功能。
- LeRobot Annotation Studio:推出了一个 HuggingFace Space,用于为数据集中的每个时刻添加自然语言子任务标注,简化数据标注流程。
总结与致谢
除了上述重点功能,v0.5.0 版本还包含了数百项错误修复、文档改进、CI/CD 优化以及大量开发体验提升。
从更严格的类型检查到更健壮的测试基础设施,我们正在持续强化 LeRobot 的基础架构,以支持未来更大规模的发展。
我们向整个社区表示衷心感谢——所有贡献者、用户和合作伙伴都在推动 LeRobot 不断进步。每一次错误报告、代码提交和讨论都让这个项目变得更好。
更多精彩,敬请期待 🤗
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25276
