视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

传统评估体系面临的根本性挑战体现在多个维度。首先,真实世界评估需要系统性覆盖常规场景、极端情况、分布外环境以及各类安全风险,通常需要进行成百上千次真实硬件实验。这种评估方式不仅耗费大量时间和资金——单次实验成本可达数千美元,更存在显著的操作风险。特别是在安全性评估领域,许多潜在的不安全行为(如误夹人手、损坏设备或引发环境危险)本身就不适合在真实环境中反复测试,这使得传统的硬件评估方法在关键安全场景下往往难以实施。

物理仿真器虽然提供了一定程度的替代方案,但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。现有仿真器往往需要复杂的物理建模和场景构建,难以快速生成多样化的测试环境,且在视觉逼真度方面与真实世界存在差距,这限制了其在复杂任务评估中的有效性。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

Google DeepMind团队提出的Veo-based评估系统代表了范式转变。该系统基于最先进的视频生成模型Veo 2,实现了带动作条件约束、具备多视角一致性的视频仿真。技术创新的核心在于三个方面:一是实现了视觉上的高度真实,能够生成与真实世界难以区分的场景;二是能够对机器人细粒度控制做出合理响应,确保仿真的物理合理性;三是集成了生成式编辑技术,使得无需搭建真实物理场景,就能生成包含新物体、新视觉背景以及安全关键元素的多样化、逼真的真实世界场景变体。

在模型架构方面,该系统采用Veo 2作为基础模型,并在大规模机器人数据集上进行了针对性微调。数据集包含多种任务,覆盖了在大量不同场景中所需的广泛操作技能。为减轻部分观测带来的影响,研究团队将系统中的四个相机视角(包括俯视视角、侧视视角,以及左右腕部视角)拼接成一个整体输入,然后对Veo2进行微调,使其能够在给定初始帧和未来机器人位姿的条件下,生成这种拼接后的多视角未来帧。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

实验验证是该研究的另一大亮点。通过1600余次真实世界评估,在八个通用型策略检查点和五项任务上进行的对比实验显示,视频模型预测结果与实际表现高度一致。研究团队基于Gemini Robotics On-Device(GROD)模型训练了端到端的视觉语言动作策略,随后使用经过微调的Veo(Robotics)视频模型,在分布内场景中对这些策略进行评估。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

在具体任务评估中,系统展现了出色的预测能力。例如在“把右上角的红色葡萄放入灰色盒子的左上角隔间”任务中,视频仿真准确预测了不同策略的成功率排序。更重要的是,研究团队使用Veo(Robotics)模型对8个不同版本的VLA机器人策略进行性能预测,然后将这些预测结果与机器人在真实世界中的实际测试结果进行对比,结果显示预测成功率与实际成功率之间存在很强的相关性。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

分布外泛化能力的测试进一步验证了系统的鲁棒性。通过改造真实场景来制造新情况,用视频模型提前预测机器人在陌生环境中的表现,并用真实实验验证这些预测的可靠性。这种能力对于评估机器人在现实世界中的实际应用潜力至关重要,因为真实环境总是充满不可预见的变量和分布外情况。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

安全红队测试是该系统的另一项突破性应用。传统安全测试往往需要在真实环境中冒险测试不安全行为,而Veo(Robotics)世界模型允许在视频模拟的世界里主动寻找策略可能出现的不安全行为。例如在“合上电脑”和“快速抓取红色积木”等任务中,系统能够识别出可能导致设备损坏或操作危险的行为模式,为安全优化提供了重要依据。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

这项研究的深远意义在于,它首次系统性地证明了视频建模在机器人策略评估中的可行性和有效性。虽然视频建模在机器人领域仍处于早期阶段,但本文清晰地展示了一条利用视频仿真世界,实现机器人策略泛化能力与安全性可扩展评估的可行路径。随着视频生成技术的不断进步,这种评估方法有望大幅降低机器人研发成本,加速创新迭代,并为更安全、更可靠的机器人系统部署奠定基础。未来,结合更先进的物理建模和多模态理解,视频仿真有望成为机器人技术发展的核心基础设施。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4714

(0)
上一篇 2025年12月15日 下午3:51
下一篇 2025年12月16日 上午8:48

相关推荐

  • MEET2026智能未来大会深度解析:从大模型到智能体,AI产业变革的十字路口

    在2025年这个AI发展的关键节点,MEET2026智能未来大会如同一面镜子,清晰地映照出人工智能领域正在发生的深刻变革。这场汇聚了学术界、工业界和投资界顶尖智慧的盛会,不仅展示了当前AI技术的最新进展,更揭示了未来几年的发展方向与挑战。 从大会的整体氛围来看,AI产业正处在一个前所未有的活跃期。会场内座无虚席的景象,线上直播高达350万+的观看量,都充分说…

    2025年12月11日
    21300
  • 多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

    在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模…

    2025年11月28日
    15300
  • TL编译器:自动映射Tile程序至空间数据流架构,性能超越厂商库1.03×/1.91×

    TL 证明,编译器驱动的映射可以在空间数据流加速器上提供厂商级别的性能。在 GEMM 和 FlashAttention 上,以最少的人工干预实现了与厂商库足以竞争甚至更好的性能,将手工设计的内核转变为可重用编译流水线的输出。同时,TL 的硬件抽象使得编译器过程在很大程度上可在不同加速器间重用,简化了对多样化空间数据流架构的支持,并为未来芯片的设计空间探索提供…

    2026年2月1日
    17000
  • Apple Silicon神经引擎潜力爆发:M4 Pro ANE实现3.8 TFLOPS,能效超GPU 80%

    关键词:Apple Silicon、专用硬件加速器(DSA)、ANE、NUC、HPC、性能评估 当我们在谈论苹果自研芯片 M1、M2、M3 乃至最新的 M4 时,我们在谈论什么?绝大多数人的第一反应是其惊人的能效比、无风扇的轻薄本体验,或是那颗用于剪辑 ProRes 视频的强大媒体引擎。 但在这些光鲜的表面之下,苹果芯片中其实一直藏着一个极为低调却又潜力巨大…

    2026年2月14日
    17000
  • 智元机器人量产破5000台:具身智能商业化进程加速,三大产线全面落地工业与消费场景

    智元机器人近日宣布第5000台通用具身机器人正式量产下线,这一里程碑事件不仅标志着该公司在短短三年内实现了从创业到规模化生产的跨越,更折射出中国具身智能产业商业化进程的显著提速。作为由“天才少年”彭志辉创立的硬核科技企业,智元以5000台的量产规模,提前触及了行业机构对2025年中国人形机器人商用出货量的预测值,预示着具身智能的量产元年可能比预期更早到来。 …

    2025年12月9日
    17500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注