Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

【核心摘要】

全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限，系统性地考察基础模型能否像人一样，在部分可观测的动态环境中，通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。

当今的多模态大模型（如 GPT-5.2, Gemini-3 Pro）在各类视觉问答榜单上屡破纪录。然而，若希望将这些能力延伸到更真实的物理场景中，模型在空间理解上可能面临显著挑战。原因何在？

想象你走进一栋从未去过的公寓。你推开门看到沙发，走进走廊瞥见卧室的床，再往前发现厨房的冰箱。现在问你：“沙发在冰箱的哪个方向？”你通常能回答，因为你在脑海中已构建了一幅“心理地图”。

人类大多能不假思索地做到这一点。但对当前的基础模型而言，情况可能截然不同。研究人员发现，现有的评估范式与真实物理世界的需求相比，存在关键差异：

从“上帝视角”到“部分可观测”：传统基准测试往往提供全局静态图片。但在真实物理空间中，智能体的视野大多是局部的，需要通过主动探索，将零散的第一人称视觉线索拼接成全局的“认知地图”。
从“被动回答”到“主动决策”：现有的空间评测通常向模型提供固定的观察数据。但在开放环境中，系统需要自主决定探索方向与目标，以更高效地获取环境信息。
从“静态常识”到“动态修正”：物理环境会发生动态变化（如物品位置变动）。除了构建地图，智能体还需要在发现环境变化时适时更新旧的空间记忆。

为此，西北大学李曼玲团队、斯坦福大学李飞飞与吴佳俊团队，以及华盛顿大学 Ranjay Krishna 团队共同提出了 Theory of Space（空间理论），旨在探讨：当减少对完整给定信息的依赖，要求基础模型通过主动探索来认识环境时，其空间认知能力会有怎样的表现？

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

Theory of Space 框架包含主动探索、信念探测和任务评估三个环节。左侧俯视图展示智能体在多房间局部观测条件下的行动轨迹；中间展示其在文本或视觉环境中通过“移动—转向—观察”的循环，并根据第一人称观测持续更新内部信念；右侧通过空间任务与认知地图探针，评估这些信念的表征及其使用方式。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

空间智能中的“心智理论”

在认知科学中，Theory of Mind（心智理论） 考察智能体能否推测他人隐藏的心理状态：“他在想什么？他知不知道这件事？”它关注的是对不可见的心智世界的建模。

Theory of Space（空间理论） 作为其在物理世界中的对称概念，考察智能体能否推测环境中尚未观测到的空间结构：“这个世界长什么样？门后面还有什么？”它关注的是对不可见的物理世界的建模。

两者的共同本质在于：智能体需要基于有限的线索，去推断隐藏的结构，并随着新信息不断修正自己的信念。

研究人员将 Theory of Space 定义为三个紧密耦合的核心能力：

构建（Construct）：在部分可观测的环境中主动探索，收集局部观察，并在内部表征中拼凑出一张全局一致的“认知地图”。
修正（Revise）：面对动态环境（如物品被悄悄移位），敏锐察觉“旧记忆”与“新证据”的冲突，打破信念惯性，完成知识更新。
利用（Exploit）：将维护好的认知地图，作为应对复杂下游空间推理任务（如空间导航、视角推演）的基础。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

Theory of Space的核心：在部分可观测环境中，智能体围绕空间信念的构建、动态修正与利用，完成空间推理与决策。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

从构建、修正到利用：对齐三大能力

研究人员围绕 Theory of Space 的三大核心能力（构建、修正、利用）设计了一整套评测体系，并引入认知地图显式探测作为核心贡献，实现对模型内部空间信念的直接诊断。

构建（Construct）：主动探索建图

研究人员在程序化生成的多房间室内布局中，提供文本世界（符号化方向/距离）和视觉世界（ThreeDWorld 渲染的第一人称 RGB 图像）两种平行环境。智能体必须自主决定移动、旋转、观察的策略，以高效构建空间信念。关键在于，智能体需要用不确定性来驱动行动，实现高效的信息获取。

修正（Revise）：在动态环境中更新过时信念

借鉴发展心理学中经典的“错误信念”范式：在智能体完成初次探索后，偷偷将若干物体移位或旋转，制造“旧信念”与“新现实”的冲突。评测智能体能否发现变化、推翻旧记忆、并建立新信念。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

利用（Exploit）：九类空间推理任务

覆盖路径级（路径推理）和全局级（鸟瞰视角地图推理）两个层次，全面评估空间信念的利用价值。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

下游空间任务总览。

核心贡献：显式认知地图探测

以往评估只看最终对错，内部信念是黑箱。研究人员引入显式认知地图探测：在探索的每一步，都要求模型以结构化格式外化其空间信念，从而度量其准确性、感知质量、稳定性和不确定性建模。这不仅知道模型答得对不对，更知道它为什么答对、为什么答错。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

大模型对空间的理解，究竟卡在了哪里？

研究人员在包括 GPT-5.2、Gemini-3 Pro、Claude-4.5 Sonnet 等在内的六个前沿多模态大模型上进行了大规模深度评测。通过白盒探测，揭示了当前大模型在空间认知上的能力边界：

洞察一：主动信息获取是具身智能的阿喀琉斯之踵

让模型自己决定“看什么”，其性能大幅下降。

为了区分“探索能力”和“推理能力”，研究人员设计了脚本化的规则代理作为探索基准。模型在被动模式下接收这些代理收集的完整观测日志进行推理，在主动模式下则需自主规划探索。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

结果显著：GPT-5.2 在视觉世界中的表现从被动模式的 57.1 降至主动模式的 46.0；Gemini-3 Pro 从 60.5 降至 57.3。在效率方面，规则代理仅需约 9 步即可达到目标覆盖，而基础模型常常需要 14 步以上，且信念质量并未提升。模型呈现出“探索得多”但“探索得差”的特点，行动冗余、效率低下。随着环境复杂度增加，这种差距进一步扩大。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

发现一：主动探索的效率与精度权衡

在主动探索模式下，智能体的探索效率与任务准确率均低于被动模式。灰色图标代表被动模式。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

发现二：模态鸿沟

无论在被动还是主动探索设定下，模型在文本环境中的表现均一致且显著地优于视觉环境。这揭示了当前多模态模型在空间感知方面的根本局限：模型难以从视觉观察中有效提取空间信息，而高度依赖符号化表征进行逻辑推理。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

文本推理远强于视觉推理，所有模型无一例外。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

被动模式与主动探索下，视觉与文本模态间均存在巨大性能落差。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

发现三：认知地图的三重危机

通过认知地图探测，研究人员进一步发现模型存在三个核心问题：
1. 朝向感知是瓶颈：在视觉世界中，模型对物体朝向的判断接近随机。
2. 信念不稳定：正确感知到的信息会随时间退化。
3. 信念漂移：新的错误感知会覆盖先前正确的感知。

简言之，模型的主要问题并非“看不见”，而是“记不住”和“记错了”。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

发现四：认知地图是有效的诊断工具

研究人员通过消融实验验证了认知地图作为诊断工具的有效性：
* 充分性验证：当为模型提供真实的认知地图后，下游任务准确率飙升至约95%，证明JSON地图格式捕获了完成任务所需的全部信息。
* 相关性验证：认知地图的准确度与下游任务表现呈显著正相关（Pearson r = 0.42~0.65，p < 0.001）。

虽然外化的地图是模型内部信念的有损压缩，但它仍是强有力的诊断信号。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

发现五：信念惯性

即使直接观察到环境变化，模型仍倾向于维持旧的空间信念。例如，当环境布局改变后，视觉模型的方向惯性高达68.9%，而文本模型仅为5.5%。这表明当前的基础模型缺乏足够的认知可塑性来修正其空间记忆。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

人类与AI表现对比

人类在视觉世界中的任务准确率达到96.4%（使用工具后可达99.0%），而表现最佳的AI模型（Gemini-3 Pro）仅为57.3%。有趣的是，人类在视觉环境中的表现优于文本环境，这与AI的表现趋势相反。这凸显了人类具有直观理解视觉空间的天然优势，而当前的AI架构则更倾向于依赖文本符号进行逻辑推演。

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

总结与展望

Theory of Space 将空间评估的核心问题，从“模型能否回答正确”重新定义为“模型能否通过高效的信息获取，构建并维护一个连贯且可修正的空间世界模型”。

论文的发现指向三个关键的未来研究方向：
1. 开发具备不确定性感知的高效探索策略。
2. 构建鲁棒的长时空间记忆维护机制，以解决信念漂移问题。
3. 设计可靠的信念修正机制，以克服信念惯性。

这些挑战不仅关乎学术评测，更直接影响着具身智能的实际落地。无论是家庭机器人、自动驾驶还是搜救机器人，主动的空间理解都是不可或缺的基础能力。

该研究由 Northwestern University, Stanford University, University of Washington, Cornell University 联合完成。项目已开源。

参考资料：
https://arxiv.org/abs/2602.07055

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/24122

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

<img decoding="async" alt="Theory of Space：具身智能新突破，让大模型像人一样探索未知空间" src="https://www.itsolotime.com/wp-content/uploads/2026/03/image-515.jpg" />

【核心摘要】

空间智能中的“心智理论”

从构建、修正到利用：对齐三大能力

构建（Construct）：主动探索建图

修正（Revise）：在动态环境中更新过时信念

利用（Exploit）：九类空间推理任务

核心贡献：显式认知地图探测

大模型对空间的理解，究竟卡在了哪里？

洞察一：主动信息获取是具身智能的阿喀琉斯之踵

相关推荐

国产具身智能新突破：千寻Spirit v1.5开源即登顶全球真机评测榜首

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

2025年大模型评测工具终极指南：五大工具深度解析与选型策略

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

Gemini-3-pro登顶AI评测榜首：性能飞跃31%成本激增，终结豆包250天霸榜神话