视频仿真革命：Google DeepMind用Veo模型重塑机器人策略评估范式

4天前 • AI产业动态 • 阅读 3

在通用型机器人技术快速发展的当下，如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长，更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统，为这一难题提供了突破性的解决方案。

传统评估体系面临的根本性挑战体现在多个维度。首先，真实世界评估需要系统性覆盖常规场景、极端情况、分布外环境以及各类安全风险，通常需要进行成百上千次真实硬件实验。这种评估方式不仅耗费大量时间和资金——单次实验成本可达数千美元，更存在显著的操作风险。特别是在安全性评估领域，许多潜在的不安全行为（如误夹人手、损坏设备或引发环境危险）本身就不适合在真实环境中反复测试，这使得传统的硬件评估方法在关键安全场景下往往难以实施。

物理仿真器虽然提供了一定程度的替代方案，但在真实感、多样性、搭建成本和视觉一致性方面仍存在明显瓶颈。现有仿真器往往需要复杂的物理建模和场景构建，难以快速生成多样化的测试环境，且在视觉逼真度方面与真实世界存在差距，这限制了其在复杂任务评估中的有效性。

Google DeepMind团队提出的Veo-based评估系统代表了范式转变。该系统基于最先进的视频生成模型Veo 2，实现了带动作条件约束、具备多视角一致性的视频仿真。技术创新的核心在于三个方面：一是实现了视觉上的高度真实，能够生成与真实世界难以区分的场景；二是能够对机器人细粒度控制做出合理响应，确保仿真的物理合理性；三是集成了生成式编辑技术，使得无需搭建真实物理场景，就能生成包含新物体、新视觉背景以及安全关键元素的多样化、逼真的真实世界场景变体。

在模型架构方面，该系统采用Veo 2作为基础模型，并在大规模机器人数据集上进行了针对性微调。数据集包含多种任务，覆盖了在大量不同场景中所需的广泛操作技能。为减轻部分观测带来的影响，研究团队将系统中的四个相机视角（包括俯视视角、侧视视角，以及左右腕部视角）拼接成一个整体输入，然后对Veo2进行微调，使其能够在给定初始帧和未来机器人位姿的条件下，生成这种拼接后的多视角未来帧。

实验验证是该研究的另一大亮点。通过1600余次真实世界评估，在八个通用型策略检查点和五项任务上进行的对比实验显示，视频模型预测结果与实际表现高度一致。研究团队基于Gemini Robotics On-Device（GROD）模型训练了端到端的视觉语言动作策略，随后使用经过微调的Veo（Robotics）视频模型，在分布内场景中对这些策略进行评估。

在具体任务评估中，系统展现了出色的预测能力。例如在“把右上角的红色葡萄放入灰色盒子的左上角隔间”任务中，视频仿真准确预测了不同策略的成功率排序。更重要的是，研究团队使用Veo（Robotics）模型对8个不同版本的VLA机器人策略进行性能预测，然后将这些预测结果与机器人在真实世界中的实际测试结果进行对比，结果显示预测成功率与实际成功率之间存在很强的相关性。

分布外泛化能力的测试进一步验证了系统的鲁棒性。通过改造真实场景来制造新情况，用视频模型提前预测机器人在陌生环境中的表现，并用真实实验验证这些预测的可靠性。这种能力对于评估机器人在现实世界中的实际应用潜力至关重要，因为真实环境总是充满不可预见的变量和分布外情况。

安全红队测试是该系统的另一项突破性应用。传统安全测试往往需要在真实环境中冒险测试不安全行为，而Veo（Robotics）世界模型允许在视频模拟的世界里主动寻找策略可能出现的不安全行为。例如在“合上电脑”和“快速抓取红色积木”等任务中，系统能够识别出可能导致设备损坏或操作危险的行为模式，为安全优化提供了重要依据。

这项研究的深远意义在于，它首次系统性地证明了视频建模在机器人策略评估中的可行性和有效性。虽然视频建模在机器人领域仍处于早期阶段，但本文清晰地展示了一条利用视频仿真世界，实现机器人策略泛化能力与安全性可扩展评估的可行路径。随着视频生成技术的不断进步，这种评估方法有望大幅降低机器人研发成本，加速创新迭代，并为更安全、更可靠的机器人系统部署奠定基础。未来，结合更先进的物理建模和多模态理解，视频仿真有望成为机器人技术发展的核心基础设施。

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/4714

视频仿真革命：Google DeepMind用Veo模型重塑机器人策略评估范式

相关推荐

ICLR 2026 学术诚信危机：AI 幻觉引用如何挑战同行评审体系

DeepPHY基准揭示多模态大模型物理推理能力鸿沟：从静态理解到动态交互的挑战

VinciCoder：视觉强化学习突破多模态代码生成瓶颈，开启统一框架新纪元

突破双向编码瓶颈：快手BRHVC如何革新智能视频压缩技术

从‘Slop’当选年度词汇看AI内容生态的挑战与演进

发表回复