在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主决策与操作能力。

近日,阿里巴巴达摩院、湖畔实验室与浙江大学联合提出的WorldVLA框架,首次将VLA与世界模型深度融合,构建了一个统一的自回归动作世界模型。该框架不仅突破了动作生成与物理理解的边界,更通过双向增强机制,为具身智能提供了全新的技术路径。
从架构设计看,WorldVLA的创新性体现在三个层面:首先,它基于Chameleon多模态大模型进行初始化,采用三套独立分词器分别处理图像、文本与动作数据。图像分词器采用VQ-GAN模型,通过感知损失优化显著物体区域,压缩比为16,码本大小8192——这意味着256×256图像生成256个token,512×512图像生成1024个token,高分辨率为精细操作提供了更丰富的视觉特征。动作分词器将连续机器人动作离散化为256个区间,每个动作由7个token表示(3个位置、3个角度、1个夹爪状态),实现了动作的标准化编码。文本分词器则采用BPE方案,词表包含65536个token,其中专门预留8192个图像token和256个动作token,确保多模态信息的无缝对齐。

其次,WorldVLA在注意力机制上进行了关键改进。传统自回归模型使用因果注意力掩码(当前token仅能访问前面token),但在生成连续动作时,早期错误会累积传播。研究团队设计了针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本与视觉输入,屏蔽之前动作的干扰。这种设计实现了动作的并行生成,而世界模型部分仍保留因果掩码以维持时序一致性。下图清晰展示了这一机制对比:

更核心的是,WorldVLA通过联合训练实现了动作模型与世界模型的相互增强。引入世界模型数据主要基于三重考量:环境物理理解(学习动作与状态变化的因果关系)、动作风险评估(模拟候选动作后果以规避不良状态)、动作精确解析(提升动作生成的上下文相关性)。同时,动作模型通过增强视觉理解能力,反过来支持世界模型生成更符合物理规律的未来状态。这种双向促进机制,使得模型在未进行大规模预训练的情况下,性能已超越离散化OpenVLA基准。

实验数据充分验证了框架的有效性。在机器人操作任务中,WorldVLA在512×512分辨率下的表现显著优于256×256分辨率,这既得益于Chameleon主干在更高分辨率下的优化,也源于更多视觉细节对精细操作的支撑。世界模型的引入使动作模型性能提升尤为明显——基线模型往往直接移动到目标点却抓取失败,而WorldVLA会持续尝试直到确认成功,如下图对比所示:

在视觉生成方面,WorldVLA同样展现优势。纯世界模型在长序列生成中容易出现物理不合理现象(如拉开抽屉失败、移动物体后物品消失),而WorldVLA生成的视频序列不仅连贯,更严格遵循物理约束。下图案例中,动作世界模型成功完成了抽屉拉开、碗平稳放置等复杂操作:

技术细节上,WorldVLA的训练融合了动作模型数据与世界模型数据。世界模型部分通过预测未来图像学习环境动力学,动作模型部分则基于当前观测生成后续动作。这种设计使模型既能“抽象思考”(规划高层任务),又能“物理感知”(理解底层规律),恰如小米汽车高级研究总监陈龙所言:“VLA与WM的结合才是通往具身智能的答案。”

从产业视角看,WorldVLA的价值不仅在于学术创新,更在于其工程落地潜力。统一框架减少了模块间协调成本,自回归架构便于扩展至更多模态,而高分辨率支持使其在工业质检、医疗手术等需毫米级操作的场景中具备应用前景。当前,具身智能正从实验室走向产业化,WorldVLA这类融合感知、推理与执行的技术,有望加速服务机器人、自动驾驶等领域的突破。

当然,框架仍有优化空间:动作离散化可能损失连续性,复杂动态环境建模仍需加强,多任务泛化能力需进一步验证。但毫无疑问,WorldVLA为VLA与世界模型的融合树立了标杆,其双向增强机制、注意力掩码创新、多分辨率适配等设计,将为后续研究提供重要参考。

展望未来,随着计算资源增长与多模态数据积累,WorldVLA类模型可向更精细的动作控制、更复杂的环境交互演进。若结合强化学习进行在线优化,或引入物理引擎提供先验知识,模型的实际部署效果将进一步提升。在通往通用具身智能的道路上,统一感知、理解与行动的框架,正成为不可或缺的技术基石。

核心作者岑俊(阿里巴巴达摩院阿里星)的跨机构研究背景(浙江大学、香港科技大学、南洋理工大学),以及团队在微软亚洲研究院、上海AI Lab等机构的经验积累,为这一突破性工作奠定了坚实基础。相关代码与论文已开源,推动社区共同探索具身智能的前沿。

— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/8837
