JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

长期以来,AI领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。

传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海量的样本才能学到一点皮毛,这在奖励信号稀疏的现实环境中效率低下。

为了打破这一僵局,研究者们提出了“世界模型”这一概念,即让智能体在脑海中构建一个物理模拟器,通过预测未来状态来进行演练。

近年来,虽然能够生成精美像素画面的生成式模型层出不穷,但对于物理规划而言,沉溺于无关紧要的细节(如背景烟雾的流动)往往是低效的。真正的挑战在于,如何在错综复杂的原始视觉输入中提取抽象精髓。

这便引出了本研究的主角:JEPA-WM(联合嵌入预测世界模型)。

从名字也能看出来,这个模型与 Yann LeCun 的 JEPA(联合嵌入预测架构)紧密相关。事实上也确实如此,并且 Yann LeCun 本人也是该论文的作者之一。更有意思的是,在这篇论文中,Yann LeCun 的所属机构为 Meta FAIR

JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

  • 论文标题:What Drives Success in Physical Planning with Joint-Embedding Predictive World Models?
  • 论文地址:https://arxiv.org/abs/2512.24497

JEPA-WM 继承了 JEPA 的衣钵,不再纠结于像素级的重建,而是在高度抽象的表征空间内进行预判。在这项研究中,团队试图通过对架构、目标函数和规划算法的全方位扫描,揭示究竟是什么驱动了物理规划的成功,并试图为机器人装上一个更理性的“大脑”。

JEPA-WM 核心方法

该团队将 JEPA-WM 的训练与规划流程形式化为一套统一的“终极指南”,重点在于如何在学习到的特征空间中模拟动力学。

1. 层次化的编码与预测架构

JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

在训练阶段,模型主要由四部分交织而成:

  • 视觉编码器 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑:使用预训练且冻结的 ViT 权重(如 DINOv2 或 DINOv3)来提取空间特征,确保模型具备敏锐的视觉感知力。
  • 本体感受编码器 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑:一个浅层网络,用于捕捉机器人自身的关节角度和位姿,这与视觉信息共同构成了全局状态嵌入。
  • 动作编码器 A_θ:将机器人的控制指令转化为同维度的特征向量。
  • 预测器 P_θ:这是模型的心脏。它接收过去窗口内的观测序列 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑 和动作序列 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑,在因果掩码的保护下,并行预测下一时刻的状态嵌入。

2. 多步展开与动作调节细节

为了让模型不至于“走一步看一步”,研究者引入了多步展开损失 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

在训练时,模型不仅要预测下一帧,还要学会在没有真实观测反馈的情况下,基于自己的预测结果递归生成后续状态。为了提高效率,采用了截断反向传播(TBPTT),即只针对最后一步的预测误差计算梯度,而切断之前的累积梯度。

在动作信息如何干预预测过程上,该团队对比了三种关键方案:

  • 特征调节(Feature Conditioning):将动作向量直接拼接到每一个视觉特征向量上,增加了预测器的隐藏层维度。
  • 序列调节(Sequence Conditioning):将动作作为一个独立的 Token 插入到 ViT 的输入序列中,通过注意力机制进行信息分发。
  • 自适应层归一化(AdaLN):动作嵌入被投影为缩放和偏移参数,在每一个 Transformer 块中动态调制归一化统计量,这能有效防止动作信号在深层网络中“淡出”。

3. 规划逻辑:在嵌入空间中寻找最优解

规划被建模为一个在动作空间 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑 上的优化问题。给定初始观测 o_t 和目标图像 o_g,智能体会在其内部模型中“试运行”N 条候选路径。评价标准是预测终点的嵌入向量与目标嵌入向量之间的距离 JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑。通过多轮迭代,优化器会不断收敛动作分布,最终输出最优的第一步或前 m 步动作。

实验与结果:从模拟器到真实机械臂

研究团队在 Metaworld(42 个操纵任务)、Push-T(物体推送)、PointMaze(导航)以及 DROID(真实机械臂数据集)上进行了评估。

1. 规划器之争:梯度 vs 采样

实验结果揭示了一个有趣的现象:在像 Metaworld 这种成本曲线相对平滑的任务中,基于梯度的 Adam 或 GD 优化器表现惊人,因为它们能顺着梯度迅速找到目标。但在 2D 导航(Wall, Maze)任务中,梯度法极易卡在局部极小值(例如对着墙猛撞而不懂得绕过门口),此时基于采样的交叉熵方法(CEM)凭借其探索能力完胜。

JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

此外,新引入的 Nevergrad(NG)规划器在无需调参的情况下展现了与 CEM 相当的实力,尤其适合跨任务迁移。

2. 关键因素的“贡献度”

为了量化不同设计决策对智能体最终表现的影响,研究团队采用了一种严谨的控制变量法。他们以一个基础配置(DINO-WM 结合 ViT-S 编码器及 6 层预测器)为基准,独立改变每一个核心组件,从而在复杂的系统工程中剥离出真正驱动性能增长的关键因子。通过在 Metaworld、Push-T 等多种异构环境下进行数以万计的幕(Episode)测试,实验揭示了世界模型在处理物理逻辑时的内在偏好。以下是影响物理规划成败的核心贡献因素:

  • 本体感受的显著增益:引入机器人内部状态信息(如关节角度、末端位姿)能够一致性地提高规划成功率。在 Metaworld 任务中,这能有效减少机械臂在目标点附近震荡的情况,提供更精准的距离感知。
    JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑
  • 编码器架构:DINO 系列编码器(DINOv2/v3)在所有任务中均表现出对 V-JEPA 等视频编码器的明显优势。这归功于 DINO 强大的细粒度目标分割能力,这对于需要精确感知物体位置的操纵和导航任务至关重要。在视觉复杂度更高的真实数据(DROID)中,DINOv3 的优势进一步扩大。
  • 动作调节技术的微妙差异:实验发现 AdaLN(自适应层归一化)调节技术在平均性能上表现最强,且计算效率更高。它通过在 Transformer 的每一层注入动作信息,有效防止了控制信号在深层网络传递过程中的消失,相比传统的特征拼接(ftcond)或序列拼接(seqcond)更具稳健性。
    JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑
  • 训练上下文长度的权衡:预测器需要至少 2 帧上下文来推断速度信息,这在 W=1 与 W=2 之间的巨大性能鸿沟中得到了印证。然而,盲目增加上下文长度(如 W > 5)反而有害,因为这会减少训练中看到的独特轨迹数量,并可能引入无用的梯度噪声。
    JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑
  • 模型规模:这是一个令人意外的发现:在简单的模拟环境(如 Maze, Wall)中,增大模型规模(从 ViT-S 到 ViT-L)非但没有帮助,反而可能由于嵌入空间过于复杂而导致规划效率下降。但对于复杂的现实数据(DROID),大容量的编码器和更深的预测器则展现出了明确的正相关收益,说明任务的物理复杂度决定了智能体所需的智力上限。
  • 多步损失的对齐作用:在训练中加入 2 步展开损失能显著改善预测器的长时稳定性,使其训练任务与测试时的递归规划任务更加对齐。对于最复杂的 DROID 任务,最佳的展开步数甚至需要达到 6 步。

研究最终汇总所有洞察,提出了针对不同任务的最优配置:在模拟器中使用 ViT-S 配以 AdaLN,而在真实复杂场景中使用 DINOv3 ViT-L 配以 12 层深度的预测器。

JEPA-WM:Meta LeCun团队发布物理规划终极指南,让机器人拥有理性大脑

在与 DINO-WM 和 V-JEPA-2-AC 的直接较量中,该模型在几乎所有维度上均取得了领先。

更多详情请参阅原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/16817

(0)
上一篇 2026年1月3日 上午10:19
下一篇 2026年1月3日 下午12:03

相关推荐

  • 企业推进大模型落地的关键工程与核心指标

    企业推进大模型落地,需统筹五大关键工程:算力工程是基础设施,关注规模、效率与服务;应用工程是价值门户,衡量业务覆盖与成效;模型工程是技术核心,驱动算法效能与迭代;知识工程是企业智库,负责知识的沉淀与复用;数据工程是循环血脉,确保数据的贯通与消费。五者协同,方能实现真正的业务智能化。

    2025年10月2日
    36900
  • 深度研究智能体:从信息搜索到自主科研的演进之路

    近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的“一次检索 + 一次生成”范式,难以支撑多步推理与长期研究流程,由此催生了深度研究(Deep Research, DR)这一新方向。 然而,随着相关工作的快速涌现,DR的概念也在迅速膨胀并趋于碎片化:不同工作在系统实现…

    2026年1月1日
    9100
  • Python开发者的内部工具构建指南:7大神器打造高效企业应用

    立即构建仪表盘、追踪器与工作流。 对于有经验的 Python 开发者而言,经常会遇到这样的需求:管理层希望快速构建一个内部仪表盘或工具。虽然这听起来颇具挑战,但事实是,企业运营确实离不开各类内部工具,如数据看板、审批流程、KPI 追踪器和自动化机器人。Python 凭借其丰富的生态系统,正是构建这类应用的理想选择。 在经历了多年为不同团队构建内部系统的实践后…

    2025年12月18日
    7800
  • DSPy 3与GEPA:革新RAG框架的自动推理与提示进化技术

    近期,OpenAI 发布了 GPT-5.2 模型,引发了广泛关注。路透社报道称,OpenAI 在竞争压力下加速了研发进程。此次更新并非功能堆砌,而是聚焦于在智能、代码处理、长文本理解等核心能力上的显著提升,尤其擅长处理创建电子表格、制作演示文稿等复杂的多步骤任务。 简而言之,GPT-5.2 是一次面向实用场景的“精修”,在可靠性、长上下文处理、工具执行和输出…

    2026年1月20日
    5400
  • 从AI聊天到代理小队:如何用SCCR框架替代50%编码时间

    AI 生成的图片(概念与提示由作者撰写) 某个深夜,我几乎要关闭代码编辑器,开始质疑自己是否还属于这个行业。 我遵循了所有“正确”的实践:多年的经验、整洁的提交记录、扎实的代码评审。然而,我却目睹着更年轻的开发者以快我一倍的速度交付功能。原因在于,他们天生采用了一种“AI优先”的工作方式,而我仍将AI视为一个更聪明的搜索框。 他们在与“代理”结对编程。我却在…

    2025年11月20日
    7800