WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

在人工智能迈向通用智能(AGI)的进程中,具身智能(Embodied AI)作为关键方向,要求智能体不仅能感知环境,更要能理解物理规律并执行精确动作。传统方法中,视觉语言动作模型(VLA)与世界模型(World Model)往往各自为战,前者擅长跨任务泛化但缺乏对动作的深度理解,后者能预测环境变化却无法直接生成动作。这种割裂严重制约了机器人在复杂场景中的自主决策与操作能力。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

近日,阿里巴巴达摩院、湖畔实验室与浙江大学联合提出的WorldVLA框架,首次将VLA与世界模型深度融合,构建了一个统一的自回归动作世界模型。该框架不仅突破了动作生成与物理理解的边界,更通过双向增强机制,为具身智能提供了全新的技术路径。

从架构设计看,WorldVLA的创新性体现在三个层面:首先,它基于Chameleon多模态大模型进行初始化,采用三套独立分词器分别处理图像、文本与动作数据。图像分词器采用VQ-GAN模型,通过感知损失优化显著物体区域,压缩比为16,码本大小8192——这意味着256×256图像生成256个token,512×512图像生成1024个token,高分辨率为精细操作提供了更丰富的视觉特征。动作分词器将连续机器人动作离散化为256个区间,每个动作由7个token表示(3个位置、3个角度、1个夹爪状态),实现了动作的标准化编码。文本分词器则采用BPE方案,词表包含65536个token,其中专门预留8192个图像token和256个动作token,确保多模态信息的无缝对齐。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

其次,WorldVLA在注意力机制上进行了关键改进。传统自回归模型使用因果注意力掩码(当前token仅能访问前面token),但在生成连续动作时,早期错误会累积传播。研究团队设计了针对动作生成的替代注意力掩码,使当前动作生成仅依赖文本与视觉输入,屏蔽之前动作的干扰。这种设计实现了动作的并行生成,而世界模型部分仍保留因果掩码以维持时序一致性。下图清晰展示了这一机制对比:

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

更核心的是,WorldVLA通过联合训练实现了动作模型与世界模型的相互增强。引入世界模型数据主要基于三重考量:环境物理理解(学习动作与状态变化的因果关系)、动作风险评估(模拟候选动作后果以规避不良状态)、动作精确解析(提升动作生成的上下文相关性)。同时,动作模型通过增强视觉理解能力,反过来支持世界模型生成更符合物理规律的未来状态。这种双向促进机制,使得模型在未进行大规模预训练的情况下,性能已超越离散化OpenVLA基准。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

实验数据充分验证了框架的有效性。在机器人操作任务中,WorldVLA在512×512分辨率下的表现显著优于256×256分辨率,这既得益于Chameleon主干在更高分辨率下的优化,也源于更多视觉细节对精细操作的支撑。世界模型的引入使动作模型性能提升尤为明显——基线模型往往直接移动到目标点却抓取失败,而WorldVLA会持续尝试直到确认成功,如下图对比所示:

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

在视觉生成方面,WorldVLA同样展现优势。纯世界模型在长序列生成中容易出现物理不合理现象(如拉开抽屉失败、移动物体后物品消失),而WorldVLA生成的视频序列不仅连贯,更严格遵循物理约束。下图案例中,动作世界模型成功完成了抽屉拉开、碗平稳放置等复杂操作:

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

技术细节上,WorldVLA的训练融合了动作模型数据与世界模型数据。世界模型部分通过预测未来图像学习环境动力学,动作模型部分则基于当前观测生成后续动作。这种设计使模型既能“抽象思考”(规划高层任务),又能“物理感知”(理解底层规律),恰如小米汽车高级研究总监陈龙所言:“VLA与WM的结合才是通往具身智能的答案。”

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

从产业视角看,WorldVLA的价值不仅在于学术创新,更在于其工程落地潜力。统一框架减少了模块间协调成本,自回归架构便于扩展至更多模态,而高分辨率支持使其在工业质检、医疗手术等需毫米级操作的场景中具备应用前景。当前,具身智能正从实验室走向产业化,WorldVLA这类融合感知、推理与执行的技术,有望加速服务机器人、自动驾驶等领域的突破。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

当然,框架仍有优化空间:动作离散化可能损失连续性,复杂动态环境建模仍需加强,多任务泛化能力需进一步验证。但毫无疑问,WorldVLA为VLA与世界模型的融合树立了标杆,其双向增强机制、注意力掩码创新、多分辨率适配等设计,将为后续研究提供重要参考。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

展望未来,随着计算资源增长与多模态数据积累,WorldVLA类模型可向更精细的动作控制、更复杂的环境交互演进。若结合强化学习进行在线优化,或引入物理引擎提供先验知识,模型的实际部署效果将进一步提升。在通往通用具身智能的道路上,统一感知、理解与行动的框架,正成为不可或缺的技术基石。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

核心作者岑俊(阿里巴巴达摩院阿里星)的跨机构研究背景(浙江大学、香港科技大学、南洋理工大学),以及团队在微软亚洲研究院、上海AI Lab等机构的经验积累,为这一突破性工作奠定了坚实基础。相关代码与论文已开源,推动社区共同探索具身智能的前沿。

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式

— 图片补充 —

WorldVLA:统一视觉语言动作与世界模型,开启具身智能新范式


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/8837

(0)
上一篇 2025年10月29日 下午5:11
下一篇 2025年10月30日 上午11:44

相关推荐

  • Anthropic ARR飙至440亿美元,12个月暴增350亿,估值剑指万亿美元

    Anthropic 将 AI 公司的增长轨迹推向了新的高度。 Semi Analysis 的最新报告指出,Anthropic 的 ARR 已突破 440 亿美元。这里的 ARR 代表年化运行收入(Annualized Run-rate Revenue),即基于当前收入水平推算的年度收入估算值,并非已确认的全年实际收入。 即便如此,这一数字依然令人震惊。 20…

    2026年5月4日
    53300
  • 稀宇MiniMax M2.5深度评测:编程能力突破性提升,逻辑推理稳中有进

    短的结论:向下扎根,向上生长 基本情况: 稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨。相比M2,M2.5的综合能力提升约17%。 部分进步源于更长的思维链和更深的解空间探索,M2.5的平均Token消耗在测试模型中位列第6,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程上虽…

    2026年2月13日
    90700
  • 快手AI人才地震:大模型掌舵人离职,华为搜索实验室主任加盟,两年间9位高管变动

    AI人才换挡期来了? 据多个独立信源透露,快手科技副总裁、基础大模型及推荐模型负责人周国睿即将离职。其内部系统状态已显示为休假,签名改为“Log Out”。有消息称其或将加入Meta,也有传闻指向TikTok。 职场平台脉脉信息显示,周国睿于2021年加入快手,此前曾在阿里妈妈担任高级算法专家。在快手期间,他先后负责直播、本地生活推荐业务,并于2024年升任…

    2025年12月31日
    59200
  • 六图解码中美AI竞赛:算力瓶颈、人才回流与能源王牌如何重塑全球格局

    TIME杂志近日刊载分析文章,通过六张图表解析中美AI竞争的真实状况。 算力差距:芯片禁令下的现实 “目前,算力是AI进步的最大驱动力。”AI Futures Project执行董事Daniel Kokotajlo指出。这对中国公司来说是个坏消息——自2022年拜登政府限制先进芯片制造设备出口,2023年进一步限制芯片本身后,中国AI发展一直受制于算力瓶颈。…

    2026年1月29日
    42300
  • 澳洲放羊大叔的AI编程革命:5行Bash脚本引爆硅谷,睡觉时AI自动完成5万美元项目

    最近,一个名为“Ralph”的AI编程技巧在全球技术社区迅速走红。其核心魔力在于:用户无需手动编写代码,只需设定目标,AI便能在后台自动完成整个开发流程,甚至在你睡觉时完成工作。令人惊讶的是,如此强大的工具,其核心代码仅由5行Bash脚本构成。 在Ralph迅速走红之后,Claude Code官方也推出了一套Ralph Wiggum插件。该插件通过“停止钩子…

    2026年1月23日
    56300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注