GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

近日,极佳视界(GigaAI)发布了全新的世界-动作模型(World-Action Model,简称 WAM)—— GigaWorld-Policy。该模型针对现有具身大模型在推理速度和训练效率方面的挑战,实现了显著性能提升:推理速度提升10倍,训练效率提升10倍,真机任务成功率提升30%。GigaWorld-Policy 的发布,标志着世界模型驱动的机器人向高频实时闭环控制迈出了关键一步。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

  • 项目主页:https://gigaai-research.github.io/GigaWorld-Policy/
  • 论文:https://arxiv.org/pdf/2603.17240
  • 代码:https://github.com/open-gigaai/giga-world-policy

破局跨模态耦合:“动作为中心”架构实现推理提速

传统 WAM 架构在推理时需要同时生成未来视觉画面与动作,跨模态的深度耦合导致计算延迟较高。GigaWorld-Policy 提出了一种“以动作为中心”的模型范式。

该架构基于轻量级世界模型 GigaWorld-0.5 构建,将视觉观测、机器人状态及动作序列映射到统一的嵌入空间,通过单一的 Transformer 主干网络进行协同建模。其核心是“训繁推简”的混合策略:

  • 训练期:引入因果掩码机制,将动作 Token 与未来视觉 Token 统一建模,使动作预测能利用未来视觉动态提供的高密度监督信号。
  • 推理期:舍弃视频预测分支,仅保留轻量化的动作生成模块。

这种设计避免了结构性计算冗余。与当前主流模型相比,GigaWorld-Policy 在保证策略输出质量的同时,实现了10倍的推理速度提升,其紧凑的多视角拼接表征也降低了显存占用。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

挖掘视频数据价值:分层训练法提升效率

GigaWorld-Policy 采用三段式高效训练流程,以充分利用视频数据:

  1. 通用物理世界预训练:利用海量互联网视频数据,让模型建立对通用物理规律和视觉动态的基础认知。
  2. 具身场景沉浸式微调:引入涵盖第一人称、真机及仿真的多源操作视频,使模型专攻具身交互场景,掌握特定空间下的时空演变规律。
  3. 极小样本的动作对齐:在预训练世界模型基础上,仅需少量真机动作标签数据,即可将模型与机器人的动作预测精准对齐,建立“观测-动作-未来视觉”的因果映射。

这种“基础能力大规模预训练 + 任务适配小样本微调”的分层范式,相比传统视觉语言动作模型训练方案,实现了整体训练效率10倍的提升。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

真机实测表现:成功率与实时性兼得

在涵盖抓取、装配、物品整理等多种典型机器人任务的评测中,GigaWorld-Policy 在成功率与推理速度之间取得了平衡。

  • 成功率提升:模型在真机任务中的平均成功率接近85%,相较于对比模型,成功率绝对值提升超过30%。
  • 实现实时控制:对比同类模型,GigaWorld-Policy 在降低显存占用的同时,实现了10倍的推理提速。毫秒级的响应能力使其能够更好地应对现实环境中的动态干扰和执行误差,这也是其高成功率的基石。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

GigaWorld-Policy 的发布,是对传统具身智能策略学习范式的一次重构。它通过训练时利用未来视频生成提供动力学约束,推理时采用轻量化动作生成,实现了效率与性能的提升。该模型为机器人在真实物理世界中的实时、高效操控提供了一套新的解决方案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27757

(0)
上一篇 2026年3月27日 上午10:53
下一篇 2026年3月29日 下午10:40

相关推荐

  • PD-NCA:开放式人工生命演化的新范式——多智能体竞争驱动的复杂性涌现

    人工生命(Artificial Life, ALife)研究长期致力于探索一个根本性问题:生命的复杂性能否在计算系统中自然涌现?这一探索的核心目标被称为开放式复杂化(open-ended complexification),旨在让人工系统能够像生物世界一样,在持续的适应与演化中自发产生新的结构与功能。近年来,神经细胞自动机(Neural Cellular A…

    2025年11月5日
    33700
  • 英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

    全球市值领先的英伟达,正式进军OpenClaw领域。其最新发布的开源模型Nemotron 3 Super,专为大规模AI智能体打造。 该模型拥有1200亿参数,采用120亿激活参数,支持100万token的上下文长度。据称,其推理速度提升高达3倍,吞吐量提升达5倍。 Nemotron 3 Super采用了创新的Mamba-MoE混合架构,旨在解决多智能体协同…

    2026年3月12日
    63600
  • AI智能演进的三重维度:商品化、可验证性与锯齿边缘

    在人工智能技术飞速发展的当下,前OpenAI核心研究员、思维链(CoT)提出者Jason Wei于斯坦福大学AI Club的演讲,为我们揭示了AI演进过程中的三个核心洞见。这些观点不仅描绘了技术发展的宏观图景,更对产业实践与未来方向提供了深刻启示。 首先,Jason Wei提出了“智能商品化”(Intelligence as a Commodity)的概念。…

    2025年11月2日
    32900
  • Meta的AI十字路口:开源理想、商业现实与内部权力重构的深度博弈

    硅谷的AI竞赛已进入深水区,而Meta正站在一个前所未有的战略转折点上。这家以社交网络起家的科技巨头,在人工智能浪潮中面临着开源理想、商业变现与内部文化冲突的三重考验。从年初的开源领跑者到如今的策略摇摆,Meta的AI之路折射出整个行业在技术理想主义与商业现实之间的艰难平衡。 **开源策略的动摇与行业格局的重塑** 扎克伯格曾将Meta的AI开源策略比作谷歌…

    2025年12月12日
    32300
  • Depth Anything 3:以极简Transformer架构重塑3D视觉,单目深度估计迈向通用空间感知

    近期,字节跳动研究团队发布的Depth Anything 3(DA3)在计算机视觉领域引发了广泛关注。这项研究通过极简的架构设计,挑战了当前3D视觉研究中普遍存在的过度复杂化倾向,为单目深度估计技术开辟了新的可能性。 DA3的核心突破在于其方法论上的根本性简化。研究团队发现,要实现高质量的3D视觉感知,并不需要专门设计的复杂神经网络架构。相反,一个标准的Tr…

    2025年11月15日
    43000