GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

具身智能迈向开放世界落地的进程中,长期制约其发展的核心瓶颈并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了视觉语言动作(VLA)大模型的规模化训练与泛化能力。传统仿真方法虽能快速生成数据,却受限于显著的Sim-to-Real差距,难以支撑真实世界的鲁棒部署。世界模型(World Model)被认为是破解这一困境的关键技术路径:通过学习真实世界的物理规律与视觉表征,世界模型能够生成高保真、可控且多样化的具身交互数据,从根本上突破真机数据不足的限制。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在此背景下,国产世界模型公司极佳视界发布并开源了具身世界模型GigaWorld-0,实现了里程碑式的突破:首次将世界模型生成数据在VLA训练中的占比提升至90%,所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现了近300%的性能提升。这一成就标志着具身智能正式迈入“数据高效、高泛化、低成本”的新发展阶段,为机器人规模化应用奠定了坚实的数据基础。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真的具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保生成数据在几何结构与物理动力学上的准确性。这种双模态架构设计,既保障了视觉真实性,又强化了物理合理性,为VLA模型提供了全面、可靠的训练素材。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力。在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

稀疏注意力机制通过仅在局部时空邻域与关键语义区域间建立注意力连接,摒弃了传统全注意力带来的平方级计算复杂度。该机制在生成高帧率、长序列视频时,显著降低了内存占用与推理延迟,使世界模型能够高效处理复杂的时空依赖关系。混合专家(MoE)架构的引入,则进一步提升了生成多样性与可控性。每个视频Token动态路由至多个专家网络,确保不同语义区域由专属专家处理,实现了细粒度的内容控制,从而生成更符合任务需求的具身交互数据。

在几何一致性与物理准确性建模方面,GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力。系统首先基于稀疏输入视图初始化高斯场景表示,随后引入专用的视图修复生成模型,缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动高精度3DGS重建,在新视角合成中同时保障几何一致性与视觉保真度。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

可微分物理引擎的集成,是GigaWorld-0-3D的另一大创新。通过基于物理信息神经网络(PINNs)的可微分物理引擎,系统实现了对机械臂动力学的自动参数辨识。该引擎采用三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,从而高效生成物理合理、交互可信的数据。这种数据驱动的物理建模方法,有效缩小了仿真与现实的差距,为具身智能体提供了更可靠的训练环境。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低了显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。支撑这一突破的是极佳视界自研的GigaTrain高效训练框架,这是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在常规硬件上高效完成微调。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在PBench(Robot Set)基准测试中,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比。尽管GigaWorld-0模型仅激活20亿参数,为所有对比模型中最小,却在整体评分上显著领先,取得了最高性能。这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0的价值不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。这充分证明了世界模型生成数据在提升VLA模型泛化能力方面的巨大潜力,为具身智能的规模化落地提供了新的技术范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5725

(0)
上一篇 2025年12月2日 下午12:39
下一篇 2025年12月2日 下午12:51

相关推荐

  • 苹果与谷歌达成AI深度合作:Gemini将成苹果AI新大脑,Siri迎来革命性升级

    谷歌市值首次突破4万亿美元,这一历史性时刻的背后,是一则引爆科技圈的新闻:苹果与谷歌正式宣布达成一项多年期深度合作协议。 根据协议,苹果未来的基础AI模型将基于谷歌的Gemini模型和云技术构建,这包括即将推出的Apple Intelligence平台,以及今年晚些时候将迎来革命性升级的Siri。 消息一出,迅速占据各大科技媒体头条,并引发了行业内的广泛讨论…

    2026年1月13日
    18100
  • UNeMo:多模态世界模型与分层预测反馈机制重塑视觉-语言导航新范式

    在具身智能(Embodied AI)领域,视觉-语言导航(VLN)作为核心任务之一,要求智能体仅凭视觉图像和自然语言指令,在未知环境中自主完成目标导航。随着大语言模型(LLM)的兴起,基于LLM的导航方法虽取得一定进展,但仍面临推理模态单一、优化目标冲突等关键瓶颈。深圳大学李坚强教授团队联合北京理工莫斯科大学等机构提出的UNeMo框架,通过多模态世界模型(M…

    2025年12月10日
    23100
  • 澳洲放羊大叔的AI编程革命:5行Bash脚本引爆硅谷,睡觉时AI自动完成5万美元项目

    最近,一个名为“Ralph”的AI编程技巧在全球技术社区迅速走红。其核心魔力在于:用户无需手动编写代码,只需设定目标,AI便能在后台自动完成整个开发流程,甚至在你睡觉时完成工作。令人惊讶的是,如此强大的工具,其核心代码仅由5行Bash脚本构成。 在Ralph迅速走红之后,Claude Code官方也推出了一套Ralph Wiggum插件。该插件通过“停止钩子…

    2026年1月23日
    33300
  • 解码AI时代红利:从技术突破到产业协同的多元路径分析

    在人工智能技术快速演进的当下,科技创新红利已成为驱动经济增长和社会变革的核心动力。近期一场汇聚学界与产业界精英的高端对话,从多维视角深入剖析了AI时代红利的释放机制与实现路径。本文将从技术基础、产业转化、协同创新及全球化布局四个维度,系统解析科技创新红利的深层逻辑与实践策略。 技术突破是红利释放的原始驱动力。当前,以大模型为代表的AI技术正掀起新一轮科技革命…

    2025年11月11日
    17700
  • SceneMaker:突破3D生成瓶颈,从任意图像到完整3D场景的开放世界重建

    3D生成技术面临“半开放”窘境 当前3D生成技术深陷“半开放”窘境:模型能够打造精美的样板间,却对真实世界中千变万化的物体与场景表现不稳定。 针对这一问题,IDEA研究院张磊团队与香港科技大学谭平团队联合推出了SceneMaker框架。该框架以万物检测模型DINO-X与万物3D生成模型Triverse为基础,实现了从任意开放世界图像(室内、室外、合成图等)到…

    2026年1月25日
    15600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注