GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

近日,极佳视界(GigaAI)发布了全新的世界-动作模型(World-Action Model,简称 WAM)—— GigaWorld-Policy。该模型针对现有具身大模型在推理速度和训练效率方面的挑战,实现了显著性能提升:推理速度提升10倍,训练效率提升10倍,真机任务成功率提升30%。GigaWorld-Policy 的发布,标志着世界模型驱动的机器人向高频实时闭环控制迈出了关键一步。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

  • 项目主页:https://gigaai-research.github.io/GigaWorld-Policy/
  • 论文:https://arxiv.org/pdf/2603.17240
  • 代码:https://github.com/open-gigaai/giga-world-policy

破局跨模态耦合:“动作为中心”架构实现推理提速

传统 WAM 架构在推理时需要同时生成未来视觉画面与动作,跨模态的深度耦合导致计算延迟较高。GigaWorld-Policy 提出了一种“以动作为中心”的模型范式。

该架构基于轻量级世界模型 GigaWorld-0.5 构建,将视觉观测、机器人状态及动作序列映射到统一的嵌入空间,通过单一的 Transformer 主干网络进行协同建模。其核心是“训繁推简”的混合策略:

  • 训练期:引入因果掩码机制,将动作 Token 与未来视觉 Token 统一建模,使动作预测能利用未来视觉动态提供的高密度监督信号。
  • 推理期:舍弃视频预测分支,仅保留轻量化的动作生成模块。

这种设计避免了结构性计算冗余。与当前主流模型相比,GigaWorld-Policy 在保证策略输出质量的同时,实现了10倍的推理速度提升,其紧凑的多视角拼接表征也降低了显存占用。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

挖掘视频数据价值:分层训练法提升效率

GigaWorld-Policy 采用三段式高效训练流程,以充分利用视频数据:

  1. 通用物理世界预训练:利用海量互联网视频数据,让模型建立对通用物理规律和视觉动态的基础认知。
  2. 具身场景沉浸式微调:引入涵盖第一人称、真机及仿真的多源操作视频,使模型专攻具身交互场景,掌握特定空间下的时空演变规律。
  3. 极小样本的动作对齐:在预训练世界模型基础上,仅需少量真机动作标签数据,即可将模型与机器人的动作预测精准对齐,建立“观测-动作-未来视觉”的因果映射。

这种“基础能力大规模预训练 + 任务适配小样本微调”的分层范式,相比传统视觉语言动作模型训练方案,实现了整体训练效率10倍的提升。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

真机实测表现:成功率与实时性兼得

在涵盖抓取、装配、物品整理等多种典型机器人任务的评测中,GigaWorld-Policy 在成功率与推理速度之间取得了平衡。

  • 成功率提升:模型在真机任务中的平均成功率接近85%,相较于对比模型,成功率绝对值提升超过30%。
  • 实现实时控制:对比同类模型,GigaWorld-Policy 在降低显存占用的同时,实现了10倍的推理提速。毫秒级的响应能力使其能够更好地应对现实环境中的动态干扰和执行误差,这也是其高成功率的基石。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

GigaWorld-Policy 的发布,是对传统具身智能策略学习范式的一次重构。它通过训练时利用未来视频生成提供动力学约束,推理时采用轻量化动作生成,实现了效率与性能的提升。该模型为机器人在真实物理世界中的实时、高效操控提供了一套新的解决方案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27757

(0)
上一篇 2天前
下一篇 8小时前

相关推荐

  • Meta的AI战略转型:内部冲突、资源博弈与科技巨头的历史轮回

    随着扎克伯格将公司战略重心从「元宇宙」全面转向人工智能,Meta正经历着自成立以来最深刻的结构性变革。这一转变不仅涉及数十亿美元的资源重新分配,更引发了公司内部在战略方向、文化理念和资源优先级上的激烈博弈。本文将从多个维度深入分析Meta当前面临的挑战、转型逻辑及其在科技巨头竞争格局中的独特处境。 今年,扎克伯格对Meta的人工智能业务进行了彻底重组,并以约…

    2025年12月12日
    25400
  • RoboOmni:全模态端到端操作大模型开启机器人主动服务新时代

    复旦大学、上海创智学院与新加坡国立大学联合推出的全模态端到端操作大模型RoboOmni,标志着机器人交互范式从被动执行向主动服务的根本性转变。该模型通过统一视觉、文本、听觉与动作模态,实现了动作生成与语音交互的协同控制,并开源了140K条语音-视觉-文字“情境指令”真机操作数据集,为具身智能领域提供了重要的技术突破和数据资源。 在传统机器人交互中,系统通常依…

    2025年11月11日
    28800
  • TrajSelector:轻量级隐状态复用,突破大模型推理的Best-of-N性能瓶颈

    在大型语言模型(LLM)日益成为解决复杂任务核心工具的当下,测试时扩展(Test-Time Scaling,TTS)已成为提升模型推理能力的关键技术路径。该技术通过在模型“答题”阶段动态分配更多计算资源,显著优化其表现。当前,Test-Time Scaling主要分为两大范式:内部测试时扩展,以DeepSeek-R1等推理模型为代表,通过延长思维链实现;外部…

    2025年11月6日
    18600
  • 实测夸克AI浏览器「千问划词快捷指令」:7个高效Prompt技巧提升AI交互质量

    新年伊始,DeepSeek发布了一篇技术论文,其专业深度让不少网友直呼“看不懂”。 于是,在相关社群的评论区,出现了集体向AI求助的有趣场景:有人要求AI“用八十岁老太太能听懂的方式解释”,有人希望得到“大白话翻译”,还有人直接说“当我是幼儿园小朋友,给我讲明白”。 这一幕既幽默又真实地反映了现状:面对复杂信息时,我们的第一反应往往是寻求AI的帮助,而非自己…

    2026年1月15日
    53000
  • 突破多目标优化瓶颈:Li Auto团队HVO-GRPO框架让7B模型媲美GPT-4摘要性能

    HVO-GRPO团队 投稿 量子位 | 公众号 QbitAI 文本摘要作为自然语言处理(NLP)的核心任务,其质量评估通常需要兼顾一致性(Consistency)、连贯性(Coherence)、流畅性(Fluency)和相关性(Relevance) 等多个维度。 然而,在实际优化过程中,开发者往往面临“拆东墙补西墙”的窘境:提升了相关性,一致性可能随之下降。…

    2026年2月9日
    14000