OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

在春晚上，宇树机器人带来的武术表演《武 BOT》令人印象深刻。表演中，人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵与武术动作，展现了高动态、高协同的全自主集群控制能力。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

如今，北京通用人工智能研究院（BIGAI）、宇树科技、上海交通大学与中国科学技术大学等机构的一项新研究，在此方向上更进一步。他们提出了 OmniXtreme：一种能够执行各类极限动作的通用控制策略，其动作库包括连续翻转、极限平衡，甚至可通过快速接触切换完成霹雳舞。

该能力的实现分为两个关键步骤：首先预训练一个基于流的生成控制策略，随后针对复杂物理动力学进行“驱动感知残差强化学习”的后训练。其中，后训练步骤对于将策略成功迁移至真实世界至关重要。

该研究的通讯作者之一、BIGAI 研究科学家 Siyuan Huang 表示：“我们花费了一年时间深入探究通用跟踪与极端物理行为之间的障碍。在测试了数十台 G1 机器人后，最终找到了在学习和物理执行能力方面的瓶颈。”

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

值得注意的是，宇树科技联合创始人兼 CEO 王兴兴也在论文作者之列。论文共同第一作者为 Yunshen Wang 和 Shaohang Zhu。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

论文地址：https://arxiv.org/abs/2602.23843
项目地址：https://extreme-humanoid.github.io
代码地址：https://github.com/Perkins729/OmniXtreme

方法：突破高动态控制的泛化壁垒

在人形机器人运动控制领域，研究人员长期面临一个被称为“泛化壁垒”的困境。当动作库的规模与多样性增加时，传统的统一强化学习策略常出现性能崩溃，这在部署高动态动作时尤为明显。这种崩溃源于两个相互叠加的瓶颈：仿真环境中的学习瓶颈（多动作优化的梯度干扰）以及物理执行瓶颈（真实世界复杂的驱动约束）。

为解决这一问题，研究团队提出了 OmniXtreme 框架。该框架将动作技能学习与物理驱动微调解耦，分为“基于流的可扩展预训练”与“驱动感知的残差后训练”两个核心阶段。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

阶段一：基于流的可扩展预训练

此阶段的目标是赋予模型高表示容量，使其能掌握大量异构的极限动作，同时避免传统多动作强化学习中常见的保守平均倾向。

研究人员首先整合了 LAFAN1、AMASS、MimicKit 等多个高质量动作数据集，并将其重定向至宇树 G1 人形机器人模型。针对这些参考动作，团队利用 PPO 算法训练了一系列专家策略。随后，OmniXtreme 采用基于数据集聚合的知识蒸馏技术，将这些专家策略的行为统一融合到一个基于流匹配的生成式策略中。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

在数学上，基于流的模型通过优化特定目标函数，学习从纯噪声中恢复专家动作的过程：

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

其中，a_t 表示在流时间步 t 下，专家动作 a_expert 与随机噪声 ε 之间的插值动作。该目标函数使模型学习到一个速度场 v_θ，从而在推理时通过正向欧拉积分生成高精度的连续控制动作。为保证物理稳定性，此阶段仅引入适度噪声和域随机化，确保策略能准确捕捉底层物理动力学特征。

阶段二：驱动感知的后训练

预训练得到的流匹配策略在仿真中表现出高跟踪精度，但现实世界的电机非线性特性常导致高动态表现大幅下降。为实现平滑的“仿真到现实”迁移，团队冻结了预训练的基础策略，并在其上训练了一个轻量级 MLP 残差策略。该残差策略无需重新学习动作跟踪，主要负责输出修正动作以对抗真实的硬件约束。

为使残差策略充分适应物理约束，团队在训练环境中引入了三个层面的深度建模：

激进的域随机化：研究人员大幅提升了初始姿态噪声、外力干扰幅度、角速度等域随机化参数的范围（最高达50%）。同时，他们将终止阈值放宽了1.5倍（例如将躯干方向误差容忍度从0.8弧度放宽至1.2弧度）。这种设计为残差策略提供了充足的探索空间，使其学会在大偏差状态下进行极限挽救，增强了系统鲁棒性。
功率安全驱动正则化：执行后空翻等高动态动作时，机器人会产生巨大的瞬态制动负载。OmniXtreme 创新性地引入了针对机械功率的惩罚机制，核心在于计算关节扭矩与角速度的乘积，即瞬时机械功率 P=τ·ω。对于超出安全死区的高额负功率（再生制动），团队应用了严格的二次惩罚函数：

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

该惩罚项被重点施加于膝关节，因为膝关节在冲击与恢复阶段最易承受破坏性制动负载。

驱动感知的扭矩与速度约束：团队将真实的电机运行包络线集成到仿真器中，定义了随关节速度幅值单调递减的容许扭矩函数。此外，系统还通过非线性摩擦项对执行器级别的内部损耗进行建模：

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

该公式精确捕捉了从静摩擦到动摩擦的平滑过渡，并计算了与速度相关的耗散阻尼。

纯机载的实时部署

在硬件部署上，OmniXtreme 展现了较高的工程完成度。整个推理管线（包括基于正向运动学的状态估计、流匹配基础策略及残差策略）均使用 TensorRT 进行了深度优化。在宇树 G1 人形机器人的机载 NVIDIA Jetson Orin NX 平台上，系统实现了约10毫秒的端到端推理延迟，完美支持50 Hz的高频闭环控制。

实验表现：全方位极限测试

为全面评估 OmniXtreme 的可扩展性与鲁棒性，研究团队不仅使用了标准 LAFAN1 动作库，还精心挑选了约60个极具挑战性的动作，构建了 XtremeMotion 评估集。这些动作包含极高的角速度、频繁的接触切换及严苛的时序约束。

可扩展的高保真跟踪能力

在仿真环境中，OmniXtreme 与传统的“从头训练多动作强化学习”基线及“专家到统一 MLP 蒸馏”基线进行了对比。数据显示，OmniXtreme 在所有指标上均显著领先。面对难度激增的 XtremeMotion 数据集，传统方法的跟踪误差大幅增加，而 OmniXtreme 仍保持了极低的运动学误差和极高的成功率。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

在现实世界的宇树 G1 机器人上，团队选取了 XtremeMotion 中的24个不同高动态动作进行了157次物理测试，涵盖后空翻、杂技、霹雳舞、武术等多个类别。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

最终测试中，OmniXtreme 取得了 91.08% 的整体平均成功率。具体而言，后空翻类动作成功率达 96.36%，武术类动作为 93.33%，霹雳舞类动作也达到了 86.36%。这一结果验证了仿真环境中的高保真度控制策略能够成功迁移至现实世界。

以下为部分动作示例：

托马斯全旋、上旋、向前爬行与后空翻

霹雳舞

武术

打破保真度与可扩展性的权衡

为检验系统的泛化能力，研究团队进行了渐进式压力测试：将训练动作集从 10 个逐步扩展至 20 个，最终增至 50 个，并始终使用固定的前 10 个动作进行评估。

实验结果显示显著差异。随着动作多样性增加，传统从头训练的强化学习基线模型性能严重衰退，其成功率从 100% 骤降至 83.3%，最终跌至 73.9%。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

相比之下，OmniXtreme 展现出强大的稳健性。即使在包含 50 个动作的庞大训练集下，其对核心动作的跟踪成功率仍保持在 93.3%，从而打破了“高保真度必然随多样性增加而下降”的传统认知。

模型规模的扩展规律

在人工智能领域，增加模型参数通常能提升性能，但这一规律在传统运动控制中往往失效。团队对比了不同参数量（20M、50M、70M）模型的表现。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

数据显示，传统的 MLP 策略在参数扩大后很快进入性能平台期，跟踪精度提升有限。而基于流匹配的生成式策略则呈现出明显的扩展规律：随着参数量增至 70M，OmniXtreme 的跟踪精度与鲁棒性持续稳定增长，表明生成式预训练为人形机器人控制提供了一条可行的能力扩展路径。

现实世界执行能力的消融分析

哪些机制保障了机器人的物理稳健性？通过消融实验，团队得出以下结论：

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

对于后空翻等强爆发力翻腾动作，仅引入电机约束即可保证稳定执行，从而避免硬件极限被瞬时突破。然而，对于包含高频接触转换的霹雳舞动作，需同时结合电机约束与激进的域随机化，才能在接触扰动中维持时序敏感的平衡。

最严峻的挑战来自包含高速冲击缓冲的杂技落地动作。研究发现，若缺少功率安全正则化机制，即使模型能在姿态上保持平衡，也可能因电机瞬态制动导致的过流或电池欠压而失败。

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

这说明，要在现实世界中实现高度敏捷的运动，必须对声、光、电、热等多维物理约束进行精确建模。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/23855

OmniXtreme：人形机器人突破极限动作壁垒，实现连续翻转与霹雳舞表演

方法：突破高动态控制的泛化壁垒

阶段一：基于流的可扩展预训练

阶段二：驱动感知的后训练

纯机载的实时部署

实验表现：全方位极限测试

可扩展的高保真跟踪能力

打破保真度与可扩展性的权衡

模型规模的扩展规律

现实世界执行能力的消融分析

相关推荐

告别单一成功率：北大团队推出机器人操作评估新范式，实现细粒度质量与来源真实性双重验证

清华&伯克利联手突破：BOOM框架让具身智能性能翻倍，世界模型+强化学习实现双向奔赴

Cloudflare颠覆AI网页抓取：Markdown for Agents实现80% Token节省，开启内容消费新范式

MCP 被彻底玩明白了：Anthropic 用对方法让智能体成本直降近百倍！

突破智能体工作流瓶颈：ToolOrchestra框架如何通过强化学习实现动态资源调度