GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

具身智能迈向开放世界落地的进程中,长期制约其发展的核心瓶颈并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了视觉语言动作(VLA)大模型的规模化训练与泛化能力。传统仿真方法虽能快速生成数据,却受限于显著的Sim-to-Real差距,难以支撑真实世界的鲁棒部署。世界模型(World Model)被认为是破解这一困境的关键技术路径:通过学习真实世界的物理规律与视觉表征,世界模型能够生成高保真、可控且多样化的具身交互数据,从根本上突破真机数据不足的限制。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在此背景下,国产世界模型公司极佳视界发布并开源了具身世界模型GigaWorld-0,实现了里程碑式的突破:首次将世界模型生成数据在VLA训练中的占比提升至90%,所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现了近300%的性能提升。这一成就标志着具身智能正式迈入“数据高效、高泛化、低成本”的新发展阶段,为机器人规模化应用奠定了坚实的数据基础。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真的具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保生成数据在几何结构与物理动力学上的准确性。这种双模态架构设计,既保障了视觉真实性,又强化了物理合理性,为VLA模型提供了全面、可靠的训练素材。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力。在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

稀疏注意力机制通过仅在局部时空邻域与关键语义区域间建立注意力连接,摒弃了传统全注意力带来的平方级计算复杂度。该机制在生成高帧率、长序列视频时,显著降低了内存占用与推理延迟,使世界模型能够高效处理复杂的时空依赖关系。混合专家(MoE)架构的引入,则进一步提升了生成多样性与可控性。每个视频Token动态路由至多个专家网络,确保不同语义区域由专属专家处理,实现了细粒度的内容控制,从而生成更符合任务需求的具身交互数据。

在几何一致性与物理准确性建模方面,GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力。系统首先基于稀疏输入视图初始化高斯场景表示,随后引入专用的视图修复生成模型,缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动高精度3DGS重建,在新视角合成中同时保障几何一致性与视觉保真度。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

可微分物理引擎的集成,是GigaWorld-0-3D的另一大创新。通过基于物理信息神经网络(PINNs)的可微分物理引擎,系统实现了对机械臂动力学的自动参数辨识。该引擎采用三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,从而高效生成物理合理、交互可信的数据。这种数据驱动的物理建模方法,有效缩小了仿真与现实的差距,为具身智能体提供了更可靠的训练环境。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低了显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。支撑这一突破的是极佳视界自研的GigaTrain高效训练框架,这是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在常规硬件上高效完成微调。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在PBench(Robot Set)基准测试中,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比。尽管GigaWorld-0模型仅激活20亿参数,为所有对比模型中最小,却在整体评分上显著领先,取得了最高性能。这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0的价值不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。这充分证明了世界模型生成数据在提升VLA模型泛化能力方面的巨大潜力,为具身智能的规模化落地提供了新的技术范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/5725

(0)
上一篇 2025年12月2日 下午12:39
下一篇 2025年12月2日 下午12:51

相关推荐

  • RICE视觉基座:从全局语义到区域感知的视觉预训练范式演进

    在计算机视觉领域,预训练基座模型的演进正推动着多模态智能的边界。近日,格灵深瞳公司灵感团队发布的视觉模型基座RICE(MVT v1.5)在ICCV25会议上获得Highlight荣誉,标志着视觉表征学习从全局语义理解向细粒度区域感知的重要转变。这一突破不仅刷新了多项视觉任务榜单,更揭示了视觉预训练技术发展的深层逻辑。 MVT系列的发展轨迹清晰地展现了视觉预训…

    2025年10月29日
    40400
  • 解码语言理解的神经与算法共鸣:Nature新研究揭示LLM与人脑处理语言的惊人同步性

    近日,《Nature》发表的一项突破性研究,通过对比人类大脑与大型语言模型(LLM)处理语言时的神经活动与计算过程,揭示了两者在机制上的深刻相似性,为理解语言认知的本质提供了全新视角。 研究团队设计了一项精密的实验:让志愿者佩戴脑电图(EEG)设备,聆听30分钟的叙事内容,同时将相同文本输入GPT-2 XL和Llama-2模型,并记录模型每一隐藏层的激活状态…

    2025年12月11日
    38500
  • AI时代通用语言之争:HTML能否取代Markdown成为新宠?

    人类用了半个世纪,才将文档从打字机搬到Word,又花了二十年迁移到云端。然而在AI时代,真正的通用格式竟是一门2004年发明的纯文本语言——Markdown。最近,Claude Code工程师Thariq提出了一个引人热议的观点:他已弃用Markdown,认为HTML才是未来。 Claude Code工程师Thariq分享的用HTML替代Markdown的文…

    13小时前
    4000
  • 从数据中心到工作站:KTransformers与LLaMA-Factory联手重塑千亿参数模型微调格局

    在人工智能技术快速迭代的浪潮中,大模型微调一直被视为连接通用智能与垂直应用的关键桥梁。然而,传统微调方法对计算资源的巨额需求,将千亿乃至万亿参数模型的定制化能力牢牢锁在数据中心内部,普通研究者和中小企业只能望而却步。如今,这一局面正被彻底改写——仅需2-4张消费级RTX 4090显卡,即可在本地工作站上对DeepSeek 671B、Kimi K2 1TB等超…

    2025年11月5日
    44100
  • 菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机?

    菲尔兹奖得主惊呼:ChatGPT 5.5 Pro两小时完成博士级数学成果,数学界面临危机? 如果AI的数学水平继续按目前速度发展,我们(数学研究者)很快会面临一场危机。 数学最高荣誉——菲尔兹奖得主 Timothy Gowers,在亲身体验了最新版ChatGPT 5.5 Pro后,向学生们发出了紧急警告。 对博士生的影响,尤为紧迫。 事情是这样的。这位剑桥大…

    1天前
    10400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注