清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

2026年3月11日上午10:54 • 大模型工程 • 阅读 251

给定几张场景图片，人类往往能在脑海中想象出该场景的三维布局。然而，当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理，难以有效表达图像中隐含的几何结构。

为此，清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

论文地址：https://arxiv.org/pdf/2510.18632
代码地址：https://github.com/zhangquanchen/3DThinker

从“Think with Image”到“Think with 3D”

提升多模态大模型的推理能力是当前的研究重点。人类能够根据几张RGB图像推断空间关系，而现有模型在空间理解任务上表现较弱，其核心原因在于模型缺乏对图像中几何信息的有效提取能力。

现有方法主要分为两类：
1. 依赖纯文本或二维视觉线索进行强推理（如认知图推理），这类方法通常需要繁琐的数据标注。
2. 通过输入增强引入深度图、点云等先验信息，这类方法依赖于外部工具调用，并非模型的内蕴能力，且增加了推理负担。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

3DThinker 提出了一种全新思路：在无需3D标注（如点云）且不依赖外部工具的情况下，让模型在推理过程中内蕴地“想象”三维场景。

具体而言，该框架引导模型在生成推理链时，自动插入一段紧凑的隐变量，作为其内部构建的三维场景表征。这段生成的表征通过蒸馏3D基础模型（VGGT）来获得。

核心思路：二段式学习实现3D思考

3DThinker采用双阶段训练策略完成潜空间对齐：
1. 监督训练阶段：将预训练的3D特征蒸馏到模型推理路径中，使模型能从二维数据中提取几何信息，不依赖任何先验。
2. 强化训练阶段：在保持3D隐变量稳定的同时，仅依据结果信号优化整个采样轨迹，从而实现模型能力的飞跃。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

阶段一：以3D基础模型为指导，建立模型推理行为

在监督训练阶段，首先构建包含3D特殊标记的思维链数据。训练过程中，3DThinker将所有特殊标记对应的3D隐变量（最后一层隐藏状态）通过投影器映射到VGGT的潜空间，并将两者的对齐作为第一项损失函数：

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

其中，投影器由堆叠的6层MLP实现，用于完成三次特征维度映射，具体结构如下：

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

第二项损失函数是去除特殊标记后的文本交叉熵损失：

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

第一项损失确保3D隐变量的表征对齐，第二项则保证自然语言嵌入的连贯性。

阶段二：以结果信号为基础，优化含3D意象的轨迹

在完成第一阶段后，模型初步实现了“用3D思考”的表征对齐。接下来，基于强化学习，在仅有结果信号的情况下，优化整条采样轨迹，包括其中的3D隐变量。

具体地，3DThinker设计了一个3D隐变量对齐奖励：

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

该奖励机制会提取自回归生成的3D隐变量，并确保其与VGGT特征保持一致，从而在强化学习采样过程中不丢失几何表达能力。

此外，3DThinker也参照先前基于结果的强化学习方法，保留了结果的二值化奖励及格式奖励，并最终采用GRPO进行优化。

性能提升至新高度

研究在多个空间理解基准上验证了3DThinker的效果。

方法首先在MindCube的10K数据上构建了带有3D特殊标记的推理链数据，并进行两阶段训练。下表展示了训练后的模型效果：在MindCube-Tiny基准上，相比基线模型，不同尺寸模型的性能提升了51.8%到108.8%；在Ego3D-Bench基准上，则提升了18.1%到36.9%。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

以Qwen2.5-VL-3B基础模型为例，在监督训练阶段，模型性能超过了需要CGMap标注的方法（+1.9个百分点，62.7 vs. 60.8）；加入强化学习后，3DThinker进一步获得了+4.5个百分点的提升（75.2 vs. 70.7），证明了其训练方法的有效性。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

基于自制的大规模训练数据，模型在更全面的测试基准上进行了评估。

以Qwen2.5-VL-3B为例，该方法相比之前的SOTA提升了10.8个百分点（49.6 -> 60.4）；以Qwen2.5-VL-7B为例，则提升了16.3个百分点（48.4 -> 64.7）。结果表明，3DThinker将性能提升到了新的水平，在各个基准上均显示出显著提升。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

可解释性

3DThinker的另一个显著特点是具备一定程度的可解释性。

这意味着，3D隐变量可以通过设计的投影器直接恢复为3D表示，从而使模型的推理过程不再完全是一个“黑箱”。有趣的是，3DThinker观察到，与提示词高度相关的区域，其点云密度往往更高。

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

总结

从“看图说话”到“看图想空间”，3DThinker为视觉语言模型的推理开辟了一条新路径。

其巧妙之处在于找到了一条“无监督蒸馏”的路径：无需昂贵的3D标注数据，也不依赖外部深度传感器，而是让模型在推理过程中自发地“脑补”出三维场景。

这种“思维即几何”的设计理念，在某种程度上复现了人类的空间认知本能。当3D想象与具身智能结合，当空间推理能够实时反馈并修正时，我们或许正在接近一个能真正“看懂”物理世界的AI。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25177

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

从“Think with Image”到“Think with 3D”

核心思路：二段式学习实现3D思考

阶段一：以3D基础模型为指导，建立模型推理行为

阶段二：以结果信号为基础，优化含3D意象的轨迹

性能提升至新高度

可解释性

总结

相关推荐

AI科学家30分钟破解数学难题！斯坦福用爱因斯坦、费曼「分身」智能体发现Erdos问题新最优解

破解自动驾驶测试「跷跷板」难题：一个模型遍历从保守到激进的对抗行为

AI取代不了程序员，明年全流程上AI！谷歌工程负责人自曝：2026年AI编程完整工作流！经典软件工程纪律没过时，在AI时代更重要

从BERT到Genie：掩码范式如何铺就通往AGI的世界模型之路

AI生成操作系统新突破！上海交大提出文件系统开发新范式：从此只需写规约