GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

具身智能迈向开放世界落地的进程中,长期制约其发展的核心瓶颈并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了视觉语言动作(VLA)大模型的规模化训练与泛化能力。传统仿真方法虽能快速生成数据,却受限于显著的Sim-to-Real差距,难以支撑真实世界的鲁棒部署。世界模型(World Model)被认为是破解这一困境的关键技术路径:通过学习真实世界的物理规律与视觉表征,世界模型能够生成高保真、可控且多样化的具身交互数据,从根本上突破真机数据不足的限制。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在此背景下,国产世界模型公司极佳视界发布并开源了具身世界模型GigaWorld-0,实现了里程碑式的突破:首次将世界模型生成数据在VLA训练中的占比提升至90%,所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现了近300%的性能提升。这一成就标志着具身智能正式迈入“数据高效、高泛化、低成本”的新发展阶段,为机器人规模化应用奠定了坚实的数据基础。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真的具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保生成数据在几何结构与物理动力学上的准确性。这种双模态架构设计,既保障了视觉真实性,又强化了物理合理性,为VLA模型提供了全面、可靠的训练素材。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力。在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

稀疏注意力机制通过仅在局部时空邻域与关键语义区域间建立注意力连接,摒弃了传统全注意力带来的平方级计算复杂度。该机制在生成高帧率、长序列视频时,显著降低了内存占用与推理延迟,使世界模型能够高效处理复杂的时空依赖关系。混合专家(MoE)架构的引入,则进一步提升了生成多样性与可控性。每个视频Token动态路由至多个专家网络,确保不同语义区域由专属专家处理,实现了细粒度的内容控制,从而生成更符合任务需求的具身交互数据。

在几何一致性与物理准确性建模方面,GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力。系统首先基于稀疏输入视图初始化高斯场景表示,随后引入专用的视图修复生成模型,缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动高精度3DGS重建,在新视角合成中同时保障几何一致性与视觉保真度。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

可微分物理引擎的集成,是GigaWorld-0-3D的另一大创新。通过基于物理信息神经网络(PINNs)的可微分物理引擎,系统实现了对机械臂动力学的自动参数辨识。该引擎采用三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,从而高效生成物理合理、交互可信的数据。这种数据驱动的物理建模方法,有效缩小了仿真与现实的差距,为具身智能体提供了更可靠的训练环境。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低了显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。支撑这一突破的是极佳视界自研的GigaTrain高效训练框架,这是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在常规硬件上高效完成微调。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在PBench(Robot Set)基准测试中,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比。尽管GigaWorld-0模型仅激活20亿参数,为所有对比模型中最小,却在整体评分上显著领先,取得了最高性能。这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0的价值不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。这充分证明了世界模型生成数据在提升VLA模型泛化能力方面的巨大潜力,为具身智能的规模化落地提供了新的技术范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5725

(0)
上一篇 2025年12月2日 下午12:39
下一篇 2025年12月2日 下午12:51

相关推荐

  • Browser-Use 0.9.0深度解析:Code Use如何革新网页自动化与数据爬取

    近日,Browser-Use团队发布了0.9.0版本,这一更新标志着浏览器自动化工具进入了一个全新的发展阶段。本次升级的核心亮点是引入了Code Use功能,专门针对数据爬取场景进行了优化设计。这一创新不仅提升了自动化效率,更从根本上改变了AI与网页交互的方式。 传统网页自动化工具通常依赖于模拟人类操作——通过视觉识别定位元素,然后模拟鼠标点击、键盘输入等动…

    2025年10月24日
    9000
  • GenMimic突破:从AI生成视频到机器人零样本模仿,人形机器人迎来动作学习新范式

    在《黑客帝国》中,Neo通过脑机接口瞬间掌握功夫的场景曾让无数观众惊叹。如今,这一科幻想象正通过伯克利、纽约大学和约翰・开普勒林茨大学联合研究团队提出的GenMimic方法,在机器人领域迈出实质性步伐。这项研究不仅解决了人形机器人如何零样本执行生成视频中人类动作的核心问题,更开辟了机器人动作学习的新路径。 研究团队构建的完整技术框架包含三个关键创新:GenM…

    2025年12月6日
    10600
  • UI-Genie:移动GUI智能体的自我进化革命——从数据瓶颈到自主能力跃迁

    在人工智能技术快速演进的当下,多模态大模型正经历着从被动响应到主动执行的深刻转型。香港中文大学MMLab与vivo AI Lab联合团队的最新研究成果UI-Genie,为这一转型提供了极具启发性的技术路径。该研究由肖涵(第一作者,研究方向为多模态大模型和智能体学习)、王国志(研究方向为多模态大模型和Agent强化学习)共同完成,项目负责人任帅(研究方向为多模…

    2025年11月7日
    8200
  • 循环语言模型Ouro:在预训练中构建推理能力的新范式

    在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理…

    2025年11月4日
    7900
  • HeyGen ARR破亿背后的AI时代运营哲学:从“稳定地基”到“驾驭浪潮”的范式革命

    近日,AI视频生成领域的明星公司HeyGen宣布其年化经常性收入(ARR)已突破1亿美元大关。这一里程碑尤为引人注目的是,该公司在短短29个月前才刚刚达到100万美元ARR,实现了百倍级的指数增长。这一成就不仅彰显了HeyGen在商业上的成功,更揭示了AI技术快速迭代时代下,一种全新的企业运营范式正在崛起。 HeyGen创始人兼CEO Joshua Xu近期…

    2025年10月18日
    7800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注