Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实

在人工智能的发展历程中,有一位科学家几乎贯穿了整个深度学习时代——他就是Yann LeCun

许多人最初接触神经网络,往往是通过他在上世纪提出的手写数字识别系统LeNet。这一早期的卷积神经网络模型不仅成功应用于银行支票识别,也为后来席卷全球的深度学习浪潮奠定了重要基础。

与如今大量研究者将目光投向生成式AI不同,LeCun近年来一直在强调另一条更长期的研究路线:构建能够理解世界并进行规划的「世界模型」。

在他看来,当前模型虽然在文本与图像生成上表现惊艳,但仍然缺乏一种关键能力——对现实世界进行建模,并预测未来可能发生的变化。

围绕这一愿景,来自Meta与纽约大学等机构的研究者(其中包括LeCun团队的成员)近期发布了一篇新论文,尝试解决世界模型中的一个基础问题:如果我们希望AI在潜在空间中进行规划,那么这种表示空间应该具备怎样的结构?

Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实

  • 论文标题:Temporal Straightening for Latent Planning
  • 论文链接:https://arxiv.org/pdf/2603.12231

视觉特征的「曲率陷阱」

这项研究的核心灵感源自神经科学中的一个著名假设——感知直道化。人类视觉系统在处理自然视频流时,倾向于将复杂的视觉输入转化为在大脑皮层中轨迹更平直的表征,从而更有效地预测物体的运动。

研究指出,虽然预训练编码器能够学习到丰富的语义表示,但其在潜在空间中形成的时间轨迹通常具有较高的曲率,这使得基于该表示进行规划变得更加困难。

这种高曲率带来了两个关键问题:

  • 距离失效:在高度弯曲的潜在空间中,简单的欧几里得距离无法准确反映到达目标状态的真实难度(测地距离)。
  • 规划不稳定:基于梯度的规划算法在弯曲的“地形”中极易陷入局部最优,导致智能体在任务中“原地打转”或出现逻辑断层。

Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实
预训练视觉编码器所编码的潜在轨迹通常高度弯曲(DINO),这增加了预测和规划的难度。本文引入了一个几何约束,使此空间中的可行轨迹更加平直(Ours)。

时间直道化

为了解决这一问题,研究团队引入了一个几何约束——曲率正则化器。

传统的潜在空间规划通常学习一个编码器和一个预测器。但在复杂的动态环境中,相邻状态在潜在空间中的轨迹往往是剧烈弯曲的。

为了实现“拉直”,研究团队提出了基于曲率的约束。在潜在空间中,定义连续三个时间步的表征。

1. 曲率的数学定义

直道化的核心是要求潜在空间中的运动轨迹尽可能接近匀速直线运动。公式上,这体现为相邻两个时间步的“位移向量”应该尽可能一致。如果轨迹是完全笔直且匀速的,那么这两个向量应该相等。

2. 曲率损失函数

论文引入了以下损失函数来惩罚轨迹的弯曲程度,例如使用单位向量的夹角余弦值来衡量方向的一致性。

这个正则项会强制编码器将原始视觉输入映射到一个更平滑的空间中,使得状态转移在该空间内表现为近似线性的演化。

Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实
训练与规划示意图。在训练过程中,一方面最小化预测损失,另一方面最小化嵌入的局部曲率。在规划过程中,使用训练好的预测器进行时序展开推演,并在嵌入空间中选择能够最小化预测最终状态与目标之间成本的最优动作。

通过这种方式,模型共同学习了一个更“平滑”的编码器和一个更“直觉”的预测器。这种“拉直”操作产生了两个重要效应:

  • 欧几里得距离 ≈ 测地距离:在拉直后的空间里,两个点之间的直线距离就能较准确地代表从状态A转移到状态B的成本。
  • 改善目标条件调节:规划目标对路径的引导变得更加线性且稳定。

Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实
直道化前后的潜在空间轨迹对比。上方的PushT示例展示了一个旋转动作,下方的UMaze示例展示了智能体从左上角移动到右上角的过程,其中星号表示目标。直道化产生了更少弯曲且更平滑的轨迹,并使欧几里得距离能够更真实地反映通往目标的测地线进展(即实际步数)。

实验结果:攻克「传送门」迷宫

为了验证这一理论,研究团队设计了一个极具挑战性的实验环境:Teleport-PointMaze(带传送门的点迷宫)。

在这个迷宫中,当智能体触碰右侧墙壁时会瞬间“传送”到左侧,这种瞬时的位置跳跃对传统的预训练编码器(如DINOv2)构成了巨大挑战。

Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实
不同编码器的潜在曲率与开环梯度下降规划成功率对比。余弦相似度越高表示曲率越低。在编码器类型相同的情况下,曲率的降低通常会导致成功率的提升。

研究通过计算潜在空间中任意点与目标点之间的均方误差,生成了距离热力图。

Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实
PointMaze的距离热力图(蓝色表示小值,红色表示大值)。黄色五角星代表目标位置,计算其嵌入与迷宫中所有其他状态嵌入之间的欧氏距离。图b和图c使用了经过平直化正则化训练的ResNet。经过平直化处理后,潜在距离能够准确反映到达目标所需的最小步数。

  • DINOv2 (a):其热力图呈现出支离破碎的斑块,完全无法反映迷宫的物理拓扑结构,规划算法在此空间内几乎是“盲目搜索”。
  • 无直道化的投影器 (c):虽然经过了任务微调,但热力图依然显示出严重的扭曲,无法正确识别传送门的连接性。
  • 时间直道化 (b):热力图显示出的梯度非常平滑,且完美契合了地标真值(d)。这意味着在直道化后的空间里,简单的欧氏距离就能精准指导智能体穿过传送门。

世界模型研究的新线索

随着世界模型研究的不断发展,越来越多学者开始关注:什么样的表示才真正适合规划?

这篇论文给出了一个简单但有启发性的答案:在一个好的潜在空间中,时间轨迹应该尽可能是直线。

这种设计不仅可以提高规划效率,还可能影响未来许多研究方向,例如机器人控制、视频世界模型、自动驾驶……

或许正如Yann LeCun所强调的那样:真正的智能,离不开一个能够理解并预测世界的模型。而让“时间变直”,可能正是通往这一目标的重要一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27718

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • GitHub开源30+真实OpenClaw应用案例:从信息聚合到自动化运维的实战指南

    最近在 GitHub 发现了一个有趣的仓库,专门收集 OpenClaw 的真实应用案例。 许多用户在安装 OpenClaw 后,往往会陷入一个循环:不断添加各种 Skill,在 ClawHub 中寻找新功能,今天安装天气查询,明天添加股票分析,后天又集成翻译助手。 然而,安装了大量 Skill 后,日常使用却仍停留在信息搜索和简单记录上。技能装了一百个,生活…

    2026年2月22日
    38900
  • 智算新纪元:2026超万卡集群技术演进与产业协同全景解析

    自ChatGPT发布以来,全球科技产业迎来大模型创新浪潮,数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型,各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间,大模型参数量从万亿级向十万亿级跨越,多模态、超长序列、实时交互等场景的爆发式增长,推动智算基础设施迎来代际升级,超万卡集群已从“军备竞赛标配”转变…

    大模型工程 2026年2月23日
    42300
  • 揭秘16层架构:如何构建成本优化、全链路可观测的生产级知识图谱系统Agentic GraphOS

    面向企业生产的、成本优化且全链路可观测的 GraphRAG 操作系统 Agentic GraphOS | 生产可用 · 多智能体 · 思维速度级扩展 本文将从零开始,完整介绍如何构建一套可投入生产的知识图谱系统——GraphOS。你将了解如何架构一个多智能体平台,智能地将查询路由到最具性价比的检索策略,在保持研究级准确率的同时实现 30–50% 的成本优化。…

    2026年1月8日
    23600
  • LangGraph实战:单智能体与多智能体系统的性能对比与架构解析

    在 LangGraph 中基于结构化数据源构建 在 LangGraph 中构建不同的 agent 系统 | Image by author 对于希望构建不同智能体系统的开发者而言,一个有效的切入点是深入比较单智能体工作流与多智能体工作流,这本质上是评估系统设计的灵活性与可控性之间的权衡。 本文旨在阐明 Agentic AI 的核心概念,并演示如何利用 Lan…

    2025年11月2日
    25900
  • AI记忆革命:从“白纸”到“大脑”,记忆架构成AI落地新护城河

    一家企业花了七周时间部署AI:第一周,它能精准回答行业分析问题,团队为之欢呼;到了第三周,它开始反复输出已被纠正过的错误结论,因为它“忘记”了之前的修正;第五周,在关键的董事会汇报中,它引用了早已被否定的数据,导致决策出现偏差;第七周,项目被迫暂停,“AI不可信”成为团队共识。问题的根源并非AI不够智能,而在于它每一次交互都像从一张白纸开始。 AI领域正在经…

    4天前
    13800