在人工智能的发展历程中,有一位科学家几乎贯穿了整个深度学习时代——他就是Yann LeCun。
许多人最初接触神经网络,往往是通过他在上世纪提出的手写数字识别系统LeNet。这一早期的卷积神经网络模型不仅成功应用于银行支票识别,也为后来席卷全球的深度学习浪潮奠定了重要基础。
与如今大量研究者将目光投向生成式AI不同,LeCun近年来一直在强调另一条更长期的研究路线:构建能够理解世界并进行规划的「世界模型」。
在他看来,当前模型虽然在文本与图像生成上表现惊艳,但仍然缺乏一种关键能力——对现实世界进行建模,并预测未来可能发生的变化。
围绕这一愿景,来自Meta与纽约大学等机构的研究者(其中包括LeCun团队的成员)近期发布了一篇新论文,尝试解决世界模型中的一个基础问题:如果我们希望AI在潜在空间中进行规划,那么这种表示空间应该具备怎样的结构?

- 论文标题:Temporal Straightening for Latent Planning
- 论文链接:https://arxiv.org/pdf/2603.12231
视觉特征的「曲率陷阱」
这项研究的核心灵感源自神经科学中的一个著名假设——感知直道化。人类视觉系统在处理自然视频流时,倾向于将复杂的视觉输入转化为在大脑皮层中轨迹更平直的表征,从而更有效地预测物体的运动。
研究指出,虽然预训练编码器能够学习到丰富的语义表示,但其在潜在空间中形成的时间轨迹通常具有较高的曲率,这使得基于该表示进行规划变得更加困难。
这种高曲率带来了两个关键问题:
- 距离失效:在高度弯曲的潜在空间中,简单的欧几里得距离无法准确反映到达目标状态的真实难度(测地距离)。
- 规划不稳定:基于梯度的规划算法在弯曲的“地形”中极易陷入局部最优,导致智能体在任务中“原地打转”或出现逻辑断层。

预训练视觉编码器所编码的潜在轨迹通常高度弯曲(DINO),这增加了预测和规划的难度。本文引入了一个几何约束,使此空间中的可行轨迹更加平直(Ours)。
时间直道化
为了解决这一问题,研究团队引入了一个几何约束——曲率正则化器。
传统的潜在空间规划通常学习一个编码器和一个预测器。但在复杂的动态环境中,相邻状态在潜在空间中的轨迹往往是剧烈弯曲的。
为了实现“拉直”,研究团队提出了基于曲率的约束。在潜在空间中,定义连续三个时间步的表征。
1. 曲率的数学定义
直道化的核心是要求潜在空间中的运动轨迹尽可能接近匀速直线运动。公式上,这体现为相邻两个时间步的“位移向量”应该尽可能一致。如果轨迹是完全笔直且匀速的,那么这两个向量应该相等。
2. 曲率损失函数
论文引入了以下损失函数来惩罚轨迹的弯曲程度,例如使用单位向量的夹角余弦值来衡量方向的一致性。
这个正则项会强制编码器将原始视觉输入映射到一个更平滑的空间中,使得状态转移在该空间内表现为近似线性的演化。

训练与规划示意图。在训练过程中,一方面最小化预测损失,另一方面最小化嵌入的局部曲率。在规划过程中,使用训练好的预测器进行时序展开推演,并在嵌入空间中选择能够最小化预测最终状态与目标之间成本的最优动作。
通过这种方式,模型共同学习了一个更“平滑”的编码器和一个更“直觉”的预测器。这种“拉直”操作产生了两个重要效应:
- 欧几里得距离 ≈ 测地距离:在拉直后的空间里,两个点之间的直线距离就能较准确地代表从状态A转移到状态B的成本。
- 改善目标条件调节:规划目标对路径的引导变得更加线性且稳定。

直道化前后的潜在空间轨迹对比。上方的PushT示例展示了一个旋转动作,下方的UMaze示例展示了智能体从左上角移动到右上角的过程,其中星号表示目标。直道化产生了更少弯曲且更平滑的轨迹,并使欧几里得距离能够更真实地反映通往目标的测地线进展(即实际步数)。
实验结果:攻克「传送门」迷宫
为了验证这一理论,研究团队设计了一个极具挑战性的实验环境:Teleport-PointMaze(带传送门的点迷宫)。
在这个迷宫中,当智能体触碰右侧墙壁时会瞬间“传送”到左侧,这种瞬时的位置跳跃对传统的预训练编码器(如DINOv2)构成了巨大挑战。

不同编码器的潜在曲率与开环梯度下降规划成功率对比。余弦相似度越高表示曲率越低。在编码器类型相同的情况下,曲率的降低通常会导致成功率的提升。
研究通过计算潜在空间中任意点与目标点之间的均方误差,生成了距离热力图。

PointMaze的距离热力图(蓝色表示小值,红色表示大值)。黄色五角星代表目标位置,计算其嵌入与迷宫中所有其他状态嵌入之间的欧氏距离。图b和图c使用了经过平直化正则化训练的ResNet。经过平直化处理后,潜在距离能够准确反映到达目标所需的最小步数。
- DINOv2 (a):其热力图呈现出支离破碎的斑块,完全无法反映迷宫的物理拓扑结构,规划算法在此空间内几乎是“盲目搜索”。
- 无直道化的投影器 (c):虽然经过了任务微调,但热力图依然显示出严重的扭曲,无法正确识别传送门的连接性。
- 时间直道化 (b):热力图显示出的梯度非常平滑,且完美契合了地标真值(d)。这意味着在直道化后的空间里,简单的欧氏距离就能精准指导智能体穿过传送门。
世界模型研究的新线索
随着世界模型研究的不断发展,越来越多学者开始关注:什么样的表示才真正适合规划?
这篇论文给出了一个简单但有启发性的答案:在一个好的潜在空间中,时间轨迹应该尽可能是直线。
这种设计不仅可以提高规划效率,还可能影响未来许多研究方向,例如机器人控制、视频世界模型、自动驾驶……
或许正如Yann LeCun所强调的那样:真正的智能,离不开一个能够理解并预测世界的模型。而让“时间变直”,可能正是通往这一目标的重要一步。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/27718


