GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

具身智能迈向开放世界落地的进程中,长期制约其发展的核心瓶颈并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了视觉语言动作(VLA)大模型的规模化训练与泛化能力。传统仿真方法虽能快速生成数据,却受限于显著的Sim-to-Real差距,难以支撑真实世界的鲁棒部署。世界模型(World Model)被认为是破解这一困境的关键技术路径:通过学习真实世界的物理规律与视觉表征,世界模型能够生成高保真、可控且多样化的具身交互数据,从根本上突破真机数据不足的限制。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在此背景下,国产世界模型公司极佳视界发布并开源了具身世界模型GigaWorld-0,实现了里程碑式的突破:首次将世界模型生成数据在VLA训练中的占比提升至90%,所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现了近300%的性能提升。这一成就标志着具身智能正式迈入“数据高效、高泛化、低成本”的新发展阶段,为机器人规模化应用奠定了坚实的数据基础。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真的具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保生成数据在几何结构与物理动力学上的准确性。这种双模态架构设计,既保障了视觉真实性,又强化了物理合理性,为VLA模型提供了全面、可靠的训练素材。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力。在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

稀疏注意力机制通过仅在局部时空邻域与关键语义区域间建立注意力连接,摒弃了传统全注意力带来的平方级计算复杂度。该机制在生成高帧率、长序列视频时,显著降低了内存占用与推理延迟,使世界模型能够高效处理复杂的时空依赖关系。混合专家(MoE)架构的引入,则进一步提升了生成多样性与可控性。每个视频Token动态路由至多个专家网络,确保不同语义区域由专属专家处理,实现了细粒度的内容控制,从而生成更符合任务需求的具身交互数据。

在几何一致性与物理准确性建模方面,GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力。系统首先基于稀疏输入视图初始化高斯场景表示,随后引入专用的视图修复生成模型,缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动高精度3DGS重建,在新视角合成中同时保障几何一致性与视觉保真度。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

可微分物理引擎的集成,是GigaWorld-0-3D的另一大创新。通过基于物理信息神经网络(PINNs)的可微分物理引擎,系统实现了对机械臂动力学的自动参数辨识。该引擎采用三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,从而高效生成物理合理、交互可信的数据。这种数据驱动的物理建模方法,有效缩小了仿真与现实的差距,为具身智能体提供了更可靠的训练环境。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低了显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。支撑这一突破的是极佳视界自研的GigaTrain高效训练框架,这是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在常规硬件上高效完成微调。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在PBench(Robot Set)基准测试中,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比。尽管GigaWorld-0模型仅激活20亿参数,为所有对比模型中最小,却在整体评分上显著领先,取得了最高性能。这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0的价值不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。这充分证明了世界模型生成数据在提升VLA模型泛化能力方面的巨大潜力,为具身智能的规模化落地提供了新的技术范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5725

(0)
上一篇 2025年12月2日 下午12:39
下一篇 2025年12月2日 下午12:51

相关推荐

  • FractalForensics:基于分形水印的主动深度伪造检测与定位技术突破

    在数字媒体技术飞速发展的今天,深度伪造(Deepfake)技术带来的安全威胁日益严峻。传统的被动检测方法往往滞后于伪造技术的演进,而主动防御技术——特别是水印技术——因其先验性和可追溯性逐渐成为研究热点。然而,现有水印方案在鲁棒性、功能性和效率方面仍存在显著局限。新加坡国立大学与山东大学的研究团队近期提出的FractalForensics方法,通过创新的分形…

    2025年11月4日
    8300
  • 人机协作新突破:仅凭本体感知实现无缝搬运,COLA方法引领具身智能新范式

    在机器人技术快速发展的今天,人机协作搬运一直是学术界和工业界关注的重点领域。传统方法通常依赖外部传感器(如摄像头、激光雷达)或遥控设备来实现机器人与人类的交互,但这些方案存在成本高、易受环境干扰、交互不自然等局限。近期,一项由中国研究团队提出的创新方法COLA(Collaborative Lifting with Adaptive roles)引起了广泛关注…

    2025年11月8日
    8200
  • 解码新范式:北大团队提出Language Ranker框架,用推荐系统思维重塑LLM生成过程

    在大语言模型(LLM)的快速发展浪潮中,学术界和工业界的研究焦点普遍集中于模型架构优化、参数规模扩展、训练数据增强以及奖励信号强化等方向,这些努力本质上都是在优化模型的输出概率分布。然而,一个长期被相对忽视的关键环节是:如何将这些复杂的概率分布高效、精准地转化为高质量的文本生成结果——即解码(decoding)阶段。传统的解码策略,如贪婪解码、束搜索(Bea…

    2025年11月30日
    8600
  • 火山引擎发布豆包视频生成模型Seedance 1.5 Pro,实现音画高精度同步

    火山引擎在FORCE原动力大会上推出最新豆包视频生成模型Seedance 1.5 Pro。该模型主打音画高精度同步功能,能够通过单一Prompt同时生成人物对白配音、背景音乐和音效。 Seedance 1.5 Pro的核心亮点包括: 1. 音画高精度同步:背景音乐、音效和人物对话均能按照剧情发展保持高度一致。 2. 支持多人多方言:原生支持四川话、粤语、上海…

    2025年12月18日
    11300
  • 从“不作恶”到“战争机器”:谷歌GenAI.mil上线背后的七年剧变与AI军事化浪潮

    从2018年数千员工抗议军事AI项目,到2025年全面接入五角大楼推出GenAI.mil平台,谷歌用七年时间完成了一场深刻的战略转型。这一转变不仅关乎一家科技巨头的商业选择,更折射出人工智能技术与地缘政治、军事战略深度融合的时代趋势。前天,五角大楼的众多屏幕上同时弹出了一条弹窗通知,一行字赫然在目:「用美国前沿AI扩展战略优势」。 昨日,美国战争部发表官方公…

    2025年12月10日
    7500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注