GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

近日,极佳视界(GigaAI)发布了全新的世界-动作模型(World-Action Model,简称 WAM)—— GigaWorld-Policy。该模型针对现有具身大模型在推理速度和训练效率方面的挑战,实现了显著性能提升:推理速度提升10倍,训练效率提升10倍,真机任务成功率提升30%。GigaWorld-Policy 的发布,标志着世界模型驱动的机器人向高频实时闭环控制迈出了关键一步。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

  • 项目主页:https://gigaai-research.github.io/GigaWorld-Policy/
  • 论文:https://arxiv.org/pdf/2603.17240
  • 代码:https://github.com/open-gigaai/giga-world-policy

破局跨模态耦合:“动作为中心”架构实现推理提速

传统 WAM 架构在推理时需要同时生成未来视觉画面与动作,跨模态的深度耦合导致计算延迟较高。GigaWorld-Policy 提出了一种“以动作为中心”的模型范式。

该架构基于轻量级世界模型 GigaWorld-0.5 构建,将视觉观测、机器人状态及动作序列映射到统一的嵌入空间,通过单一的 Transformer 主干网络进行协同建模。其核心是“训繁推简”的混合策略:

  • 训练期:引入因果掩码机制,将动作 Token 与未来视觉 Token 统一建模,使动作预测能利用未来视觉动态提供的高密度监督信号。
  • 推理期:舍弃视频预测分支,仅保留轻量化的动作生成模块。

这种设计避免了结构性计算冗余。与当前主流模型相比,GigaWorld-Policy 在保证策略输出质量的同时,实现了10倍的推理速度提升,其紧凑的多视角拼接表征也降低了显存占用。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

挖掘视频数据价值:分层训练法提升效率

GigaWorld-Policy 采用三段式高效训练流程,以充分利用视频数据:

  1. 通用物理世界预训练:利用海量互联网视频数据,让模型建立对通用物理规律和视觉动态的基础认知。
  2. 具身场景沉浸式微调:引入涵盖第一人称、真机及仿真的多源操作视频,使模型专攻具身交互场景,掌握特定空间下的时空演变规律。
  3. 极小样本的动作对齐:在预训练世界模型基础上,仅需少量真机动作标签数据,即可将模型与机器人的动作预测精准对齐,建立“观测-动作-未来视觉”的因果映射。

这种“基础能力大规模预训练 + 任务适配小样本微调”的分层范式,相比传统视觉语言动作模型训练方案,实现了整体训练效率10倍的提升。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

真机实测表现:成功率与实时性兼得

在涵盖抓取、装配、物品整理等多种典型机器人任务的评测中,GigaWorld-Policy 在成功率与推理速度之间取得了平衡。

  • 成功率提升:模型在真机任务中的平均成功率接近85%,相较于对比模型,成功率绝对值提升超过30%。
  • 实现实时控制:对比同类模型,GigaWorld-Policy 在降低显存占用的同时,实现了10倍的推理提速。毫秒级的响应能力使其能够更好地应对现实环境中的动态干扰和执行误差,这也是其高成功率的基石。

GigaWorld-Policy震撼发布:推理速度飙升10倍,训练效率提升10倍,真机成功率暴涨30%,开启机器人高频实时控制新纪元

GigaWorld-Policy 的发布,是对传统具身智能策略学习范式的一次重构。它通过训练时利用未来视频生成提供动力学约束,推理时采用轻量化动作生成,实现了效率与性能的提升。该模型为机器人在真实物理世界中的实时、高效操控提供了一套新的解决方案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/27757

(0)
上一篇 2026年3月27日 上午10:53
下一篇 2026年3月29日 下午10:40

相关推荐

  • Claude Task Viewer:实时可视化Claude Code任务执行过程的智能看板

    当Claude Code将复杂工作拆分为多个任务时,其思考过程在终端中往往显得零散。现在,一个工具将这些碎片拼接成了一幅完整的画面。 Claude Task Viewer 会在本地 3456 端口启动一个实时看板,并自动扫描 ~/.claude/tasks/ 目录下的所有会话。每个任务卡片会清晰展示当前状态、依赖关系,甚至 Claude 正在执行的具体操作。…

    2026年2月19日
    63100
  • 熵平衡革命:AEPO算法如何破解智能体强化学习的探索-稳定困境

    在智能体强化学习(Agentic RL)的快速发展浪潮中,如何在探索潜力与训练稳定之间取得精妙平衡,已成为制约多轮智能体性能提升的核心瓶颈。传统的熵驱动式智能体强化学习方法虽然通过在高不确定性节点触发分支探索来提升推理路径的多样性,但这种依赖单一熵信号的机制在实践中暴露出显著缺陷:过度追求探索往往导致训练过程剧烈震荡,甚至引发策略熵坍塌,使智能体陷入局部最优…

    2025年11月1日
    33500
  • 通往AGI的双轨路径:DeepMind掌门人哈萨比斯揭示技术创新与规模扩展的平衡之道

    在人工智能领域向通用人工智能(AGI)迈进的过程中,DeepMind联合创始人兼CEO德米斯·哈萨比斯近期在播客访谈中提出了一个核心观点:实现AGI需要技术创新与规模扩展各占50%的平衡努力。这一观点不仅为当前AI发展提供了战略框架,更揭示了AGI实现路径中的关键挑战与机遇。 哈萨比斯强调,单纯依赖模型规模的扩展无法突破现有AI系统的根本局限。当前大语言模型…

    2025年12月19日
    37600
  • 突破CLIP瓶颈:HiMo-CLIP如何通过语义层级建模实现长文本图像检索SOTA

    在多模态人工智能领域,视觉-语言对齐一直是核心挑战之一。传统的CLIP模型虽然在短文本图像检索上表现出色,但在处理长文本描述时却暴露出明显的局限性:随着文本描述的详细化,模型的匹配分数不升反降,这与人类的认知逻辑背道而驰。最近,中国联通数据科学与人工智能研究院团队在AAAI 2026上发表的研究成果HiMo-CLIP,通过创新的语义层级建模方法,成功解决了这…

    2025年12月1日
    34300
  • AI巨头论战:LeCun与哈萨比斯激辩智能本质,马斯克站队引热议

    一场关于智能本质的激烈辩论正在顶级AI研究者之间展开。 AI三巨头之一、图灵奖得主Yann LeCun近日公开表示: 纯粹就是胡扯(complete BS)。 而诺贝尔奖得主、谷歌DeepMind CEO德米斯·哈萨比斯则毫不留情地回击: LeCun的说法简直是大错特错。 这场论战引发了广泛关注,甚至让社交平台𝕏专门开辟了相关话题板块。 科技企业家埃隆·马斯…

    2025年12月24日
    32300