近日,极佳视界(GigaAI)发布了全新的世界-动作模型(World-Action Model,简称 WAM)—— GigaWorld-Policy。该模型针对现有具身大模型在推理速度和训练效率方面的挑战,实现了显著性能提升:推理速度提升10倍,训练效率提升10倍,真机任务成功率提升30%。GigaWorld-Policy 的发布,标志着世界模型驱动的机器人向高频实时闭环控制迈出了关键一步。

- 项目主页:https://gigaai-research.github.io/GigaWorld-Policy/
- 论文:https://arxiv.org/pdf/2603.17240
- 代码:https://github.com/open-gigaai/giga-world-policy
破局跨模态耦合:“动作为中心”架构实现推理提速
传统 WAM 架构在推理时需要同时生成未来视觉画面与动作,跨模态的深度耦合导致计算延迟较高。GigaWorld-Policy 提出了一种“以动作为中心”的模型范式。
该架构基于轻量级世界模型 GigaWorld-0.5 构建,将视觉观测、机器人状态及动作序列映射到统一的嵌入空间,通过单一的 Transformer 主干网络进行协同建模。其核心是“训繁推简”的混合策略:
- 训练期:引入因果掩码机制,将动作 Token 与未来视觉 Token 统一建模,使动作预测能利用未来视觉动态提供的高密度监督信号。
- 推理期:舍弃视频预测分支,仅保留轻量化的动作生成模块。
这种设计避免了结构性计算冗余。与当前主流模型相比,GigaWorld-Policy 在保证策略输出质量的同时,实现了10倍的推理速度提升,其紧凑的多视角拼接表征也降低了显存占用。

挖掘视频数据价值:分层训练法提升效率
GigaWorld-Policy 采用三段式高效训练流程,以充分利用视频数据:
- 通用物理世界预训练:利用海量互联网视频数据,让模型建立对通用物理规律和视觉动态的基础认知。
- 具身场景沉浸式微调:引入涵盖第一人称、真机及仿真的多源操作视频,使模型专攻具身交互场景,掌握特定空间下的时空演变规律。
- 极小样本的动作对齐:在预训练世界模型基础上,仅需少量真机动作标签数据,即可将模型与机器人的动作预测精准对齐,建立“观测-动作-未来视觉”的因果映射。
这种“基础能力大规模预训练 + 任务适配小样本微调”的分层范式,相比传统视觉语言动作模型训练方案,实现了整体训练效率10倍的提升。

真机实测表现:成功率与实时性兼得
在涵盖抓取、装配、物品整理等多种典型机器人任务的评测中,GigaWorld-Policy 在成功率与推理速度之间取得了平衡。
- 成功率提升:模型在真机任务中的平均成功率接近85%,相较于对比模型,成功率绝对值提升超过30%。
- 实现实时控制:对比同类模型,GigaWorld-Policy 在降低显存占用的同时,实现了10倍的推理提速。毫秒级的响应能力使其能够更好地应对现实环境中的动态干扰和执行误差,这也是其高成功率的基石。

GigaWorld-Policy 的发布,是对传统具身智能策略学习范式的一次重构。它通过训练时利用未来视频生成提供动力学约束,推理时采用轻量化动作生成,实现了效率与性能的提升。该模型为机器人在真实物理世界中的实时、高效操控提供了一套新的解决方案。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27757


