DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

当物体在滚动、滑动、被撞飞,机器人还在执行几百毫秒前的动作预测。

对动态世界而言,这种延迟,往往意味着失败。

在过去几年中,视觉-语言-动作(Vision-Language-Action,VLA)模型已成为机器人领域的焦点。这类模型能够“看懂”画面、“理解”语言指令,并直接输出连续动作,在静态抓取、摆放等桌面操作任务中取得了显著进展。

然而,一个长期被忽视的问题是——真实世界几乎从来不是静态的。当物体开始移动、加速、碰撞或改变轨迹时,当前主流的VLA模型往往会出现反应迟缓、动作失配,甚至完全失败的情况。

问题的根源不在于模型不够智能,而在于:它们跟不上时间。

近日,来自南洋理工大学S-Lab的研究团队提出了DynamicVLA。该工作首次系统性地从模型架构、推理机制和数据体系三个层面,重新审视并致力于解决动态物体操控(Dynamic Object Manipulation)这一长期空缺的难题。

DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

  • 论文链接:https://arxiv.org/abs/2601.22153
  • 项目链接:https://haozhexie.com/project/dynamic-vla/
  • GitHub 链接:https://github.com/hzxie/DynamicVLA

为什么“动态操控”对VLA模型来说如此困难?

DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

在静态场景中,VLA模型通常遵循“感知 → 推理 → 生成一段动作 → 执行完 → 再次推理”的流程。当环境基本不变时,这种方式可以正常工作;但一旦物体开始运动,这一流程便迅速失效。

问题的关键不在于模型能力不足,而在于其时间结构本身不适用于动态世界,主要体现在两个方面:

  1. 感知-执行时间错位:由于推理存在不可避免的延迟,当模型完成决策时,物体状态早已发生变化,导致动作天然“滞后于现实”。
  2. 动作分块等待:多数VLA模型必须等待上一段动作完全执行完毕后,才能启动下一次推理,这使得机器人在动态环境中始终处于被动追赶的状态。

这两个问题的叠加,使得即便在静态任务中表现良好的VLA模型,也难以应对真实世界中的动态操控。

DynamicVLA的核心思路:让机器人“边想边做”

DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

DynamicVLA并未选择通过增大模型来“预测更远的未来”,而是围绕一个更根本的问题重新设计系统:在推理延迟无法消除的情况下,如何保证机器人执行的动作仍然与当前世界状态时间对齐?

为此,DynamicVLA从推理机制、执行策略和模型结构三个层面提出了针对性设计。

1. 连续推理:让推理与执行不再相互等待
在传统VLA中,推理与执行严格串行。而连续推理机制允许模型在上一段动作尚未执行完毕时,就启动下一轮推理,从而解决了“动作分块等待”带来的反应迟滞问题。这使得推理与执行形成流水线,机器人不再有“动作执行完才能继续思考”的空窗期,始终保持一个持续更新的动作预测流。

2. 潜在感知动作流:修复推理延迟造成的时间错位
即使采用连续推理,推理延迟本身仍然存在。这意味着模型生成动作时所依据的观察,往往已经落后于真实世界。潜在感知动作流机制正是针对“感知-执行时间错位”而设计,其核心在于:显式丢弃因推理延迟而“过时”的动作,只执行在时间上仍与当前环境状态对齐的预测,并在新预测到来时,优先采用更新、更接近当前状态的动作。

3. 为动态而生的轻量化VLA架构
上述机制的有效运行依赖于足够低的推理延迟。因此,DynamicVLA采用了专为动态操控设计的轻量化架构:使用卷积式视觉编码器以避免多帧输入下的token爆炸;截断语言模型层数以在速度与理解能力之间取得平衡;整体模型规模控制在约0.4B参数量级。

动态操控数据的核心缺口:从仿真到真实世界

DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

当前,无论是仿真还是真实机器人领域,主流的VLA数据集几乎都聚焦于静态操作,而对动态物体交互的系统性覆盖仍然缺失。这一数据结构性偏差,直接限制了VLA在真实动态环境中的泛化能力。

在仿真侧,DynamicVLA基于Isaac Sim构建了大规模动态操控数据集,覆盖2800多个场景、206种物体,通过多样化的物体运动与交互模式,生成丰富且可控的动态仿真数据,为模型提供了系统性的动态训练基础。

相比之下,真实世界的动态数据采集则面临巨大挑战:动态物体运动速度快,人类遥操作反应时间不足,且难以实时获取高质量的6D位姿与速度标注,使得规模化、可复现的真实动态操控数据一直缺位。

DynamicVLA的解决方案并非强行进行遥操作,而是将真实世界“做成仿真接口”:通过多视角RGB感知实时追踪物体运动,在线估计物体的6D位姿与速度,将真实环境抽象为与仿真一致的状态输入,从而直接复用同一套状态机与控制逻辑。

首个动态操控基准:DOM Benchmark

DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

在上述自动化数据体系之上,研究团队进一步构建了动态物体操控基准。这是首个专为动态物体操控设计的系统性评测基准。

与以往侧重“是否完成任务”的静态评测不同,DOM基准从动态操控的本质出发,将能力拆解为3个核心维度、9个子维度:

  1. 交互能力:评估机器人在物体持续运动下的实时控制与决策能力。
    • 闭环反应性:对不同运动速度的即时响应能力。
    • 动态适应性:在碰撞、变向等突发事件后的快速调整能力。
    • 长时程序列化:在长时间动态交互中保持策略一致性的能力。
  2. 感知与理解:评估模型在动态场景中的多模态理解能力。
    • 视觉理解:区分外观相似物体的能力。
    • 空间推理:理解空间关系与相对位置的能力。
    • 运动感知:感知与判断物体运动状态(速度、方向)的能力。
  3. 泛化与鲁棒性:评估模型在分布外动态条件下的稳定性。
    • 视觉泛化:面对未见物体与新场景的适应能力。
    • 运动泛化:应对新速度范围与运动模式的能力。
    • 扰动鲁棒性:在外部扰动下维持稳定控制的能力。

DOM Benchmark 显示,DynamicVLA 在动态交互相关能力上显著领先,但在感知理解与扰动鲁棒性上仍存在明显不足。这一限制源于为保证实时性而选择的小模型架构。如何在响应速度与推理能力之间取得更优平衡,是动态操控视觉-语言-动作模型的重要研究方向。

实验结果:动态世界中的断层领先

在仿真与真实机器人实验中,DynamicVLA 在多个维度上显著领先现有方法。

DynamicVLA:南洋理工突破机器人动态操控瓶颈,实现边想边做的实时响应

DynamicVLA 的意义:机器人开始真正“活在时间里”

DynamicVLA 传递了一个清晰信号:下一代机器人智能的核心,不只是“看懂世界”,而是在世界持续变化的过程中实时做出正确反应。

从连续推理、潜在感知动作流,到真实世界模拟器,DynamicVLA 为动态操控提供了一套可复现、可扩展的系统范式。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/21075

(0)
上一篇 2026年2月10日 上午11:17
下一篇 2026年2月10日 上午11:39

相关推荐

  • OmniXtreme:人形机器人突破极限动作壁垒,实现连续翻转与霹雳舞表演

    在春晚上,宇树机器人带来的武术表演《武 BOT》令人印象深刻。表演中,人形机器人 G1 和 H2 在快速奔跑中完成了穿插变阵与武术动作,展现了高动态、高协同的全自主集群控制能力。 如今,北京通用人工智能研究院(BIGAI)、宇树科技、上海交通大学与中国科学技术大学等机构的一项新研究,在此方向上更进一步。他们提出了 OmniXtreme:一种能够执行各类极限动…

    2026年3月3日
    35600
  • 影目INMO:一年三轮融资近5亿,中国AI+AR眼镜如何以技术领跑全球赛道

    CES大奖拿到手软,中国创企正把AI+AR眼镜爆款做向全球。 在刚刚过去的CES 2026上,给人留下印象最为深刻的要数中国的AI眼镜军团和中国机器人军团。如果说人形机器人领域尚有波士顿动力这样的巨头能与中国大厂抗衡,那么AI眼镜赛道几乎完全成为中国公司主场。 据不完全统计,CES上展出各类AI眼镜的中国企业超过了27家,展区人头攒动十分火爆,产品体验热情颇…

    2026年1月15日
    30200
  • AI大模型周报:阿里语音识别升级、谷歌Gemini 3系列亮相、Meta开源SAM 3与3D重建套件

    11月17日 【闭源|语音识别】阿里发布录音文件识别新模型阿里发布 qwen3-asr-flash-filetrans 及其快照版 qwen3-asr-flash-filetrans-2025-11-17。该模型专为音频文件的异步转写设计,支持最长12小时的录音文件。 11月18日 【闭源】谷歌推出 Gemini 3 Pro 预览版谷歌发布首款 Gemini…

    2025年11月24日
    24100
  • 4KAgent:多智能体协同的通用图像超分辨率框架,突破传统模型局限

    图像超分辨率技术作为计算机视觉领域的重要研究方向,长期以来面临着处理复杂退化图像和跨领域应用的挑战。传统方法通常在特定数据集上表现优异,但面对真实世界中的噪声、模糊、压缩损伤以及AI生成图像、遥感影像、生物医学图像等多样化场景时,往往难以兼顾通用性与高质量输出。近期,由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大…

    2025年11月21日
    23200
  • MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化

    短的结论:向下扎根,向上生长 基本情况: 稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。 不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程…

    2026年2月13日
    65900