Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间


【核心摘要】

全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限,系统性地考察基础模型能否像人一样,在部分可观测的动态环境中,通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。

当今的多模态大模型(如 GPT-5.2, Gemini-3 Pro)在各类视觉问答榜单上屡破纪录。然而,若希望将这些能力延伸到更真实的物理场景中,模型在空间理解上可能面临显著挑战。原因何在?

想象你走进一栋从未去过的公寓。你推开门看到沙发,走进走廊瞥见卧室的床,再往前发现厨房的冰箱。现在问你:“沙发在冰箱的哪个方向?”你通常能回答,因为你在脑海中已构建了一幅“心理地图”。

人类大多能不假思索地做到这一点。但对当前的基础模型而言,情况可能截然不同。研究人员发现,现有的评估范式与真实物理世界的需求相比,存在关键差异:

  1. 从“上帝视角”到“部分可观测”:传统基准测试往往提供全局静态图片。但在真实物理空间中,智能体的视野大多是局部的,需要通过主动探索,将零散的第一人称视觉线索拼接成全局的“认知地图”。
  2. 从“被动回答”到“主动决策”:现有的空间评测通常向模型提供固定的观察数据。但在开放环境中,系统需要自主决定探索方向与目标,以更高效地获取环境信息。
  3. 从“静态常识”到“动态修正”:物理环境会发生动态变化(如物品位置变动)。除了构建地图,智能体还需要在发现环境变化时适时更新旧的空间记忆。

为此,西北大学李曼玲团队、斯坦福大学李飞飞与吴佳俊团队,以及华盛顿大学 Ranjay Krishna 团队共同提出了 Theory of Space(空间理论),旨在探讨:当减少对完整给定信息的依赖,要求基础模型通过主动探索来认识环境时,其空间认知能力会有怎样的表现?

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

Theory of Space 框架包含主动探索、信念探测和任务评估三个环节。左侧俯视图展示智能体在多房间局部观测条件下的行动轨迹;中间展示其在文本或视觉环境中通过“移动—转向—观察”的循环,并根据第一人称观测持续更新内部信念;右侧通过空间任务与认知地图探针,评估这些信念的表征及其使用方式。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

空间智能中的“心智理论”

在认知科学中,Theory of Mind(心智理论) 考察智能体能否推测他人隐藏的心理状态:“他在想什么?他知不知道这件事?”它关注的是对不可见的心智世界的建模。

Theory of Space(空间理论) 作为其在物理世界中的对称概念,考察智能体能否推测环境中尚未观测到的空间结构:“这个世界长什么样?门后面还有什么?”它关注的是对不可见的物理世界的建模。

两者的共同本质在于:智能体需要基于有限的线索,去推断隐藏的结构,并随着新信息不断修正自己的信念。

研究人员将 Theory of Space 定义为三个紧密耦合的核心能力:

  • 构建(Construct):在部分可观测的环境中主动探索,收集局部观察,并在内部表征中拼凑出一张全局一致的“认知地图”。
  • 修正(Revise):面对动态环境(如物品被悄悄移位),敏锐察觉“旧记忆”与“新证据”的冲突,打破信念惯性,完成知识更新。
  • 利用(Exploit):将维护好的认知地图,作为应对复杂下游空间推理任务(如空间导航、视角推演)的基础。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

Theory of Space的核心:在部分可观测环境中,智能体围绕空间信念的构建、动态修正与利用,完成空间推理与决策。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

从构建、修正到利用:对齐三大能力

研究人员围绕 Theory of Space 的三大核心能力(构建、修正、利用)设计了一整套评测体系,并引入认知地图显式探测作为核心贡献,实现对模型内部空间信念的直接诊断。

构建(Construct):主动探索建图

研究人员在程序化生成的多房间室内布局中,提供文本世界(符号化方向/距离)和视觉世界(ThreeDWorld 渲染的第一人称 RGB 图像)两种平行环境。智能体必须自主决定移动、旋转、观察的策略,以高效构建空间信念。关键在于,智能体需要用不确定性来驱动行动,实现高效的信息获取

修正(Revise):在动态环境中更新过时信念

借鉴发展心理学中经典的“错误信念”范式:在智能体完成初次探索后,偷偷将若干物体移位或旋转,制造“旧信念”与“新现实”的冲突。评测智能体能否发现变化、推翻旧记忆、并建立新信念。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

利用(Exploit):九类空间推理任务

覆盖路径级(路径推理)和全局级(鸟瞰视角地图推理)两个层次,全面评估空间信念的利用价值。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

下游空间任务总览。

核心贡献:显式认知地图探测

以往评估只看最终对错,内部信念是黑箱。研究人员引入显式认知地图探测:在探索的每一步,都要求模型以结构化格式外化其空间信念,从而度量其准确性、感知质量、稳定性和不确定性建模。这不仅知道模型答得对不对,更知道它为什么答对、为什么答错

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

大模型对空间的理解,究竟卡在了哪里?

研究人员在包括 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet 等在内的六个前沿多模态大模型上进行了大规模深度评测。通过白盒探测,揭示了当前大模型在空间认知上的能力边界:

洞察一:主动信息获取是具身智能的阿喀琉斯之踵

让模型自己决定“看什么”,其性能大幅下降。

为了区分“探索能力”和“推理能力”,研究人员设计了脚本化的规则代理作为探索基准。模型在被动模式下接收这些代理收集的完整观测日志进行推理,在主动模式下则需自主规划探索。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

结果显著:GPT-5.2 在视觉世界中的表现从被动模式的 57.1 降至主动模式的 46.0;Gemini-3 Pro 从 60.5 降至 57.3。在效率方面,规则代理仅需约 9 步即可达到目标覆盖,而基础模型常常需要 14 步以上,且信念质量并未提升。模型呈现出“探索得多”但“探索得差”的特点,行动冗余、效率低下。随着环境复杂度增加,这种差距进一步扩大。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

发现一:主动探索的效率与精度权衡

在主动探索模式下,智能体的探索效率与任务准确率均低于被动模式。灰色图标代表被动模式。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间 Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

发现二:模态鸿沟

无论在被动还是主动探索设定下,模型在文本环境中的表现均一致且显著地优于视觉环境。这揭示了当前多模态模型在空间感知方面的根本局限:模型难以从视觉观察中有效提取空间信息,而高度依赖符号化表征进行逻辑推理。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

文本推理远强于视觉推理,所有模型无一例外。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间 Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

被动模式与主动探索下,视觉与文本模态间均存在巨大性能落差。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

发现三:认知地图的三重危机

通过认知地图探测,研究人员进一步发现模型存在三个核心问题:
1. 朝向感知是瓶颈:在视觉世界中,模型对物体朝向的判断接近随机。
2. 信念不稳定:正确感知到的信息会随时间退化。
3. 信念漂移:新的错误感知会覆盖先前正确的感知。

简言之,模型的主要问题并非“看不见”,而是“记不住”和“记错了”。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

发现四:认知地图是有效的诊断工具

研究人员通过消融实验验证了认知地图作为诊断工具的有效性:
* 充分性验证:当为模型提供真实的认知地图后,下游任务准确率飙升至约95%,证明JSON地图格式捕获了完成任务所需的全部信息。
* 相关性验证:认知地图的准确度与下游任务表现呈显著正相关(Pearson r = 0.42~0.65,p < 0.001)。

虽然外化的地图是模型内部信念的有损压缩,但它仍是强有力的诊断信号。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

发现五:信念惯性

即使直接观察到环境变化,模型仍倾向于维持旧的空间信念。例如,当环境布局改变后,视觉模型的方向惯性高达68.9%,而文本模型仅为5.5%。这表明当前的基础模型缺乏足够的认知可塑性来修正其空间记忆。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

人类与AI表现对比

人类在视觉世界中的任务准确率达到96.4%(使用工具后可达99.0%),而表现最佳的AI模型(Gemini-3 Pro)仅为57.3%。有趣的是,人类在视觉环境中的表现优于文本环境,这与AI的表现趋势相反。这凸显了人类具有直观理解视觉空间的天然优势,而当前的AI架构则更倾向于依赖文本符号进行逻辑推演。

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间

总结与展望

Theory of Space 将空间评估的核心问题,从“模型能否回答正确”重新定义为“模型能否通过高效的信息获取,构建并维护一个连贯且可修正的空间世界模型”。

论文的发现指向三个关键的未来研究方向:
1. 开发具备不确定性感知的高效探索策略。
2. 构建鲁棒的长时空间记忆维护机制,以解决信念漂移问题。
3. 设计可靠的信念修正机制,以克服信念惯性。

这些挑战不仅关乎学术评测,更直接影响着具身智能的实际落地。无论是家庭机器人、自动驾驶还是搜救机器人,主动的空间理解都是不可或缺的基础能力

该研究由 Northwestern University, Stanford University, University of Washington, Cornell University 联合完成。项目已开源。

参考资料:
https://arxiv.org/abs/2602.07055

Theory of Space:具身智能新突破,让大模型像人一样探索未知空间
Theory of Space:具身智能新突破,让大模型像人一样探索未知空间


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/24122

(0)
上一篇 15小时前
下一篇 15小时前

相关推荐