GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

具身智能迈向开放世界落地的进程中,长期制约其发展的核心瓶颈并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了视觉语言动作(VLA)大模型的规模化训练与泛化能力。传统仿真方法虽能快速生成数据,却受限于显著的Sim-to-Real差距,难以支撑真实世界的鲁棒部署。世界模型(World Model)被认为是破解这一困境的关键技术路径:通过学习真实世界的物理规律与视觉表征,世界模型能够生成高保真、可控且多样化的具身交互数据,从根本上突破真机数据不足的限制。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在此背景下,国产世界模型公司极佳视界发布并开源了具身世界模型GigaWorld-0,实现了里程碑式的突破:首次将世界模型生成数据在VLA训练中的占比提升至90%,所训练的VLA模型在新纹理、新视角、新物体位置三大泛化维度上均实现了近300%的性能提升。这一成就标志着具身智能正式迈入“数据高效、高泛化、低成本”的新发展阶段,为机器人规模化应用奠定了坚实的数据基础。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

作为具身智能迈向规模化与数据高效的关键基础设施,GigaWorld-0由两大协同组件构成:GigaWorld-0-Video基于视频生成基座模型,生成纹理丰富、视觉逼真的具身操作数据;GigaWorld-0-3D则融合3D生成、3D Gaussian Splatting重建与可微分物理引擎,确保生成数据在几何结构与物理动力学上的准确性。这种双模态架构设计,既保障了视觉真实性,又强化了物理合理性,为VLA模型提供了全面、可靠的训练素材。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

针对当前世界模型在生成时面临的计算效率低、细节控制不足等挑战,GigaWorld-0-Video重点提升了稀疏注意力建模能力与动态专家计算能力。在保持视觉保真度的同时显著降低计算开销,为VLA模型提供高质量、可扩展的合成训练数据。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

稀疏注意力机制通过仅在局部时空邻域与关键语义区域间建立注意力连接,摒弃了传统全注意力带来的平方级计算复杂度。该机制在生成高帧率、长序列视频时,显著降低了内存占用与推理延迟,使世界模型能够高效处理复杂的时空依赖关系。混合专家(MoE)架构的引入,则进一步提升了生成多样性与可控性。每个视频Token动态路由至多个专家网络,确保不同语义区域由专属专家处理,实现了细粒度的内容控制,从而生成更符合任务需求的具身交互数据。

在几何一致性与物理准确性建模方面,GigaWorld-0-3D通过融合生成与重建技术,显著提升了在稀疏观测条件下的场景建模能力。系统首先基于稀疏输入视图初始化高斯场景表示,随后引入专用的视图修复生成模型,缓解因视角缺失导致的几何扭曲。最终,将修复后稠密、一致的多视角图像作为增强输入,驱动高精度3DGS重建,在新视角合成中同时保障几何一致性与视觉保真度。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

可微分物理引擎的集成,是GigaWorld-0-3D的另一大创新。通过基于物理信息神经网络(PINNs)的可微分物理引擎,系统实现了对机械臂动力学的自动参数辨识。该引擎采用三步流程:以随机物理参数生成仿真轨迹、训练可微替代模型逼近系统动力学、再以梯度下降优化参数匹配真实运动,从而高效生成物理合理、交互可信的数据。这种数据驱动的物理建模方法,有效缩小了仿真与现实的差距,为具身智能体提供了更可靠的训练环境。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0是业内首个采用FP8精度端到端训练的世界模型,标志着世界模型训练迈入高能效新阶段。通过将FP8与稀疏注意力深度结合,GigaWorld-0在保持生成质量的同时,显著降低了显存占用与训练成本,实现了视觉保真度与计算效率的最佳平衡。支撑这一突破的是极佳视界自研的GigaTrain高效训练框架,这是一个为大规模生成模型量身打造的统一分布式训练系统,支持DeepSpeed ZeRO、FSDP2、FP8混合精度、梯度检查点等先进训练技术,既可支撑超大规模预训练,也能在常规硬件上高效完成微调。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

在PBench(Robot Set)基准测试中,研究团队将GigaWorld-0与当前最先进的世界模型进行了全面对比。尽管GigaWorld-0模型仅激活20亿参数,为所有对比模型中最小,却在整体评分上显著领先,取得了最高性能。这一结果证明GigaWorld-0在具身智能任务中兼具生成质量与推理效率,是目前极具性价比的世界模型方案。

GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

GigaWorld-0的价值不仅体现在高质量视频与3D场景的生成能力上,更关键的是其作为可泛化具身数据引擎在真实世界中的有效性。在VLA模型GigaBrain-0上,研究团队系统性地验证了GigaWorld-0生成数据对下游具身智能任务的提升作用。实验在真实机器人平台上进行,聚焦三大开放世界泛化挑战:新纹理泛化、新视角泛化、与新物体位置泛化。结果表明:随着GigaWorld-0生成数据在训练混合数据中比例的提升,GigaBrain-0在上述三类泛化场景下的任务成功率与动作精度均呈现显著且稳定的增长趋势。这充分证明了世界模型生成数据在提升VLA模型泛化能力方面的巨大潜力,为具身智能的规模化落地提供了新的技术范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5725

(0)
上一篇 2025年12月2日 下午12:31
下一篇 2025年12月2日 下午2:21

相关推荐

  • 突破双向编码瓶颈:快手BRHVC如何革新智能视频压缩技术

    在视频编码技术演进的长河中,双向编码(Random Access模式)始终扮演着高效压缩的关键角色,广泛应用于点播、存储等高画质场景。然而,当深度学习浪潮席卷视频编码领域时,这项传统技术却遭遇了前所未有的挑战。双向编码特有的分层B帧结构虽然能带来显著的码率节省,但其复杂的大跨度参考机制却成为智能编码算法难以逾越的障碍。 视频编码技术的本质在于解决海量视觉数据…

    2025年11月21日
    100
  • 视觉化文本处理:Glyph框架如何通过图像渲染突破长文本计算瓶颈

    在人工智能快速发展的今天,处理长文本输入已成为大语言模型面临的核心挑战之一。传统的token扩展方法虽然在一定程度上缓解了上下文长度限制,但随之而来的算力成本呈指数级增长,使得百万级token的处理在经济和技术上都变得不可持续。当业界普遍在位置编码扩展和注意力机制优化上投入大量资源时,智谱AI推出的Glyph框架却开辟了一条全新的技术路径:将文本转化为图像,…

    2025年10月29日
    100
  • 强化学习重塑记忆系统:Mem-α如何让大模型学会“主动记忆”

    在人工智能领域,大语言模型的快速发展正将“记忆”问题推向技术前沿。当前,即使是最先进的GPT-4.1等模型,在处理持续增长的交互时,仍面临成本与延迟的指数级上升挑战。传统的外部记忆系统大多依赖人工规则与预设指令,导致模型缺乏对“何时记忆、记忆什么、如何更新”等核心问题的真正理解。Mem-α的出现,标志着记忆管理从规则驱动向学习驱动的范式转变——这项由加州大学…

    2025年11月7日
    100
  • 开源模型TOP5,被中国厂商包圆了

    10月,公开数据显示,来自中国的开源大模型已经牢牢占据榜单前五。

    2025年10月15日
    11400
  • 突破AI人像生成瓶颈:复旦大学与阶跃星辰联合推出WithAnyone,实现身份一致性与场景多样性的完美平衡

    在人工智能图像生成领域,个性化人像合成一直是技术攻关的难点。传统方法往往陷入“复制粘贴”的困境——生成结果高度依赖输入图像的表情、角度和姿态,缺乏自然的变化与多样性。近日,复旦大学与阶跃星辰的研究团队联合发布全新AI合照生成模型WithAnyone,通过创新的数据策略与训练框架,成功打破了这一技术瓶颈,实现了身份一致性(ID Consistency)与身份可…

    2025年11月16日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注