视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

传统评估体系面临的根本性挑战体现在多个维度。首先,真实世界评估需要系统性覆盖常规场景、极端情况、分布外环境以及各类安全风险,通常需要进行成百上千次真实硬件实验。这种评估方式不仅耗费大量时间和资金——单次实验成本可达数千美元,更存在显著的操作风险。特别是在安全性评估领域,许多潜在的不安全行为(如误夹人手、损坏设备或引发环境危险)本身就不适合在真实环境中反复测试,这使得传统的硬件评估方法在关键安全场景下往往难以实施。

物理仿真器虽然提供了一定程度的替代方案,但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。现有仿真器往往需要复杂的物理建模和场景构建,难以快速生成多样化的测试环境,且在视觉逼真度方面与真实世界存在差距,这限制了其在复杂任务评估中的有效性。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

Google DeepMind团队提出的Veo-based评估系统代表了范式转变。该系统基于最先进的视频生成模型Veo 2,实现了带动作条件约束、具备多视角一致性的视频仿真。技术创新的核心在于三个方面:一是实现了视觉上的高度真实,能够生成与真实世界难以区分的场景;二是能够对机器人细粒度控制做出合理响应,确保仿真的物理合理性;三是集成了生成式编辑技术,使得无需搭建真实物理场景,就能生成包含新物体、新视觉背景以及安全关键元素的多样化、逼真的真实世界场景变体。

在模型架构方面,该系统采用Veo 2作为基础模型,并在大规模机器人数据集上进行了针对性微调。数据集包含多种任务,覆盖了在大量不同场景中所需的广泛操作技能。为减轻部分观测带来的影响,研究团队将系统中的四个相机视角(包括俯视视角、侧视视角,以及左右腕部视角)拼接成一个整体输入,然后对Veo2进行微调,使其能够在给定初始帧和未来机器人位姿的条件下,生成这种拼接后的多视角未来帧。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

实验验证是该研究的另一大亮点。通过1600余次真实世界评估,在八个通用型策略检查点和五项任务上进行的对比实验显示,视频模型预测结果与实际表现高度一致。研究团队基于Gemini Robotics On-Device(GROD)模型训练了端到端的视觉语言动作策略,随后使用经过微调的Veo(Robotics)视频模型,在分布内场景中对这些策略进行评估。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

在具体任务评估中,系统展现了出色的预测能力。例如在“把右上角的红色葡萄放入灰色盒子的左上角隔间”任务中,视频仿真准确预测了不同策略的成功率排序。更重要的是,研究团队使用Veo(Robotics)模型对8个不同版本的VLA机器人策略进行性能预测,然后将这些预测结果与机器人在真实世界中的实际测试结果进行对比,结果显示预测成功率与实际成功率之间存在很强的相关性。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

分布外泛化能力的测试进一步验证了系统的鲁棒性。通过改造真实场景来制造新情况,用视频模型提前预测机器人在陌生环境中的表现,并用真实实验验证这些预测的可靠性。这种能力对于评估机器人在现实世界中的实际应用潜力至关重要,因为真实环境总是充满不可预见的变量和分布外情况。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

安全红队测试是该系统的另一项突破性应用。传统安全测试往往需要在真实环境中冒险测试不安全行为,而Veo(Robotics)世界模型允许在视频模拟的世界里主动寻找策略可能出现的不安全行为。例如在“合上电脑”和“快速抓取红色积木”等任务中,系统能够识别出可能导致设备损坏或操作危险的行为模式,为安全优化提供了重要依据。

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

这项研究的深远意义在于,它首次系统性地证明了视频建模在机器人策略评估中的可行性和有效性。虽然视频建模在机器人领域仍处于早期阶段,但本文清晰地展示了一条利用视频仿真世界,实现机器人策略泛化能力与安全性可扩展评估的可行路径。随着视频生成技术的不断进步,这种评估方法有望大幅降低机器人研发成本,加速创新迭代,并为更安全、更可靠的机器人系统部署奠定基础。未来,结合更先进的物理建模和多模态理解,视频仿真有望成为机器人技术发展的核心基础设施。


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4714

(0)
上一篇 4天前
下一篇 3天前

相关推荐

  • ICLR 2026 学术诚信危机:AI 幻觉引用如何挑战同行评审体系

    近期,ICLR 2026 会议陷入了一场前所未有的学术诚信风暴。继此前曝出 21% 审稿意见完全由 AI 生成、OpenReview 评审数据大规模泄露后,AI 生成内容检测平台 GPTZero 的最新调查再次揭示了更严峻的问题:在随机抽样的 300 篇投稿论文中,竟有 50 篇至少包含一处明显的“幻觉引用”。这一发现不仅暴露了当前学术评审体系的脆弱性,更引…

    2025年12月8日
    200
  • DeepPHY基准揭示多模态大模型物理推理能力鸿沟:从静态理解到动态交互的挑战

    近日,淘天集团算法技术-未来生活实验室团队提出的DeepPHY基准框架,作为首个系统性评估多模态大模型(VLM)交互式物理推理能力的综合基准,被AAAI 2026收录。该研究通过六个极具挑战性的物理模拟环境,揭示了即便是顶尖VLM,在将物理知识转化为精确、可预测的交互控制时,仍存在显著的核心短板。这一发现不仅对VLM在动态环境中的应用提出了严峻挑战,也为未来…

    2025年11月16日
    300
  • VinciCoder:视觉强化学习突破多模态代码生成瓶颈,开启统一框架新纪元

    长期以来,多模态代码生成领域的发展始终受限于传统监督微调(SFT)范式的固有缺陷。尽管SFT在Chart-to-code等特定任务上取得了显著成果,但其“狭隘的训练范围”从根本上制约了模型的泛化能力,阻碍了通用视觉代码智能的演进。更为关键的是,纯SFT范式在确保代码可执行性和高视觉保真度方面存在结构性瓶颈——模型在训练过程中完全无法感知代码的渲染效果,导致“…

    2025年11月17日
    100
  • 突破双向编码瓶颈:快手BRHVC如何革新智能视频压缩技术

    在视频编码技术演进的长河中,双向编码(Random Access模式)始终扮演着高效压缩的关键角色,广泛应用于点播、存储等高画质场景。然而,当深度学习浪潮席卷视频编码领域时,这项传统技术却遭遇了前所未有的挑战。双向编码特有的分层B帧结构虽然能带来显著的码率节省,但其复杂的大跨度参考机制却成为智能编码算法难以逾越的障碍。 视频编码技术的本质在于解决海量视觉数据…

    2025年11月21日
    200
  • 从‘Slop’当选年度词汇看AI内容生态的挑战与演进

    近日,韦氏词典宣布将‘slop’评选为2025年度词汇,并将其新定义为‘通常由人工智能大批量生成的低质量数字内容’。这一词汇的流行,不仅反映了公众对AI生成内容泛滥的直观感受,更揭示了当前数字内容生态面临的深刻变革。 从词源学角度看,‘slop’一词的演变颇具象征意义。18世纪时它指‘软泥’,19世纪转为‘食物残渣’(如猪食),后泛指‘垃圾’或‘无价值之物’…

    3天前
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注