WorldVLA：统一视觉语言动作与世界模型，开启具身智能新范式

在人工智能迈向通用智能（AGI）的进程中，具身智能（Embodied AI）作为关键方向，要求智能体不仅能感知环境，更要能理解物理规律并执行精确动作。传统方法中，视觉语言动作模型（VLA）与世界模型（World Model）往往各自为战，前者擅长跨任务泛化但缺乏对动作的深度理解，后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主决策与操作能力。

近日，阿里巴巴达摩院、湖畔实验室与浙江大学联合提出的WorldVLA框架，首次将VLA与世界模型深度融合，构建了一个统一的自回归动作世界模型。该框架不仅突破了动作生成与物理理解的边界，更通过双向增强机制，为具身智能提供了全新的技术路径。

从架构设计看，WorldVLA的创新性体现在三个层面：首先，它基于Chameleon多模态大模型进行初始化，采用三套独立分词器分别处理图像、文本与动作数据。图像分词器采用VQ-GAN模型，通过感知损失优化显著物体区域，压缩比为16，码本大小8192——这意味着256×256图像生成256个token，512×512图像生成1024个token，高分辨率为精细操作提供了更丰富的视觉特征。动作分词器将连续机器人动作离散化为256个区间，每个动作由7个token表示（3个位置、3个角度、1个夹爪状态），实现了动作的标准化编码。文本分词器则采用BPE方案，词表包含65536个token，其中专门预留8192个图像token和256个动作token，确保多模态信息的无缝对齐。

其次，WorldVLA在注意力机制上进行了关键改进。传统自回归模型使用因果注意力掩码（当前token仅能访问前面token），但在生成连续动作时，早期错误会累积传播。研究团队设计了针对动作生成的替代注意力掩码，使当前动作生成仅依赖文本与视觉输入，屏蔽之前动作的干扰。这种设计实现了动作的并行生成，而世界模型部分仍保留因果掩码以维持时序一致性。下图清晰展示了这一机制对比：

更核心的是，WorldVLA通过联合训练实现了动作模型与世界模型的相互增强。引入世界模型数据主要基于三重考量：环境物理理解（学习动作与状态变化的因果关系）、动作风险评估（模拟候选动作后果以规避不良状态）、动作精确解析（提升动作生成的上下文相关性）。同时，动作模型通过增强视觉理解能力，反过来支持世界模型生成更符合物理规律的未来状态。这种双向促进机制，使得模型在未进行大规模预训练的情况下，性能已超越离散化OpenVLA基准。

实验数据充分验证了框架的有效性。在机器人操作任务中，WorldVLA在512×512分辨率下的表现显著优于256×256分辨率，这既得益于Chameleon主干在更高分辨率下的优化，也源于更多视觉细节对精细操作的支撑。世界模型的引入使动作模型性能提升尤为明显——基线模型往往直接移动到目标点却抓取失败，而WorldVLA会持续尝试直到确认成功，如下图对比所示：

在视觉生成方面，WorldVLA同样展现优势。纯世界模型在长序列生成中容易出现物理不合理现象（如拉开抽屉失败、移动物体后物品消失），而WorldVLA生成的视频序列不仅连贯，更严格遵循物理约束。下图案例中，动作世界模型成功完成了抽屉拉开、碗平稳放置等复杂操作：

技术细节上，WorldVLA的训练融合了动作模型数据与世界模型数据。世界模型部分通过预测未来图像学习环境动力学，动作模型部分则基于当前观测生成后续动作。这种设计使模型既能“抽象思考”（规划高层任务），又能“物理感知”（理解底层规律），恰如小米汽车高级研究总监陈龙所言：“VLA与WM的结合才是通往具身智能的答案。”

从产业视角看，WorldVLA的价值不仅在于学术创新，更在于其工程落地潜力。统一框架减少了模块间协调成本，自回归架构便于扩展至更多模态，而高分辨率支持使其在工业质检、医疗手术等需毫米级操作的场景中具备应用前景。当前，具身智能正从实验室走向产业化，WorldVLA这类融合感知、推理与执行的技术，有望加速服务机器人、自动驾驶等领域的突破。