给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。
为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。

- 论文地址:https://arxiv.org/pdf/2510.18632
- 代码地址:https://github.com/zhangquanchen/3DThinker
从“Think with Image”到“Think with 3D”
提升多模态大模型的推理能力是当前的研究重点。人类能够根据几张RGB图像推断空间关系,而现有模型在空间理解任务上表现较弱,其核心原因在于模型缺乏对图像中几何信息的有效提取能力。
现有方法主要分为两类:
1. 依赖纯文本或二维视觉线索进行强推理(如认知图推理),这类方法通常需要繁琐的数据标注。
2. 通过输入增强引入深度图、点云等先验信息,这类方法依赖于外部工具调用,并非模型的内蕴能力,且增加了推理负担。

3DThinker 提出了一种全新思路:在无需3D标注(如点云)且不依赖外部工具的情况下,让模型在推理过程中内蕴地“想象”三维场景。
具体而言,该框架引导模型在生成推理链时,自动插入一段紧凑的隐变量,作为其内部构建的三维场景表征。这段生成的表征通过蒸馏3D基础模型(VGGT)来获得。
核心思路:二段式学习实现3D思考
3DThinker采用双阶段训练策略完成潜空间对齐:
1. 监督训练阶段:将预训练的3D特征蒸馏到模型推理路径中,使模型能从二维数据中提取几何信息,不依赖任何先验。
2. 强化训练阶段:在保持3D隐变量稳定的同时,仅依据结果信号优化整个采样轨迹,从而实现模型能力的飞跃。

阶段一:以3D基础模型为指导,建立模型推理行为
在监督训练阶段,首先构建包含3D特殊标记的思维链数据。训练过程中,3DThinker将所有特殊标记对应的3D隐变量(最后一层隐藏状态)通过投影器映射到VGGT的潜空间,并将两者的对齐作为第一项损失函数:

其中,投影器由堆叠的6层MLP实现,用于完成三次特征维度映射,具体结构如下:

第二项损失函数是去除特殊标记后的文本交叉熵损失:

第一项损失确保3D隐变量的表征对齐,第二项则保证自然语言嵌入的连贯性。
阶段二:以结果信号为基础,优化含3D意象的轨迹
在完成第一阶段后,模型初步实现了“用3D思考”的表征对齐。接下来,基于强化学习,在仅有结果信号的情况下,优化整条采样轨迹,包括其中的3D隐变量。
具体地,3DThinker设计了一个3D隐变量对齐奖励:

该奖励机制会提取自回归生成的3D隐变量,并确保其与VGGT特征保持一致,从而在强化学习采样过程中不丢失几何表达能力。
此外,3DThinker也参照先前基于结果的强化学习方法,保留了结果的二值化奖励及格式奖励,并最终采用GRPO进行优化。
性能提升至新高度
研究在多个空间理解基准上验证了3DThinker的效果。
方法首先在MindCube的10K数据上构建了带有3D特殊标记的推理链数据,并进行两阶段训练。下表展示了训练后的模型效果:在MindCube-Tiny基准上,相比基线模型,不同尺寸模型的性能提升了51.8%到108.8%;在Ego3D-Bench基准上,则提升了18.1%到36.9%。

以Qwen2.5-VL-3B基础模型为例,在监督训练阶段,模型性能超过了需要CGMap标注的方法(+1.9个百分点,62.7 vs. 60.8);加入强化学习后,3DThinker进一步获得了+4.5个百分点的提升(75.2 vs. 70.7),证明了其训练方法的有效性。

基于自制的大规模训练数据,模型在更全面的测试基准上进行了评估。
以Qwen2.5-VL-3B为例,该方法相比之前的SOTA提升了10.8个百分点(49.6 -> 60.4);以Qwen2.5-VL-7B为例,则提升了16.3个百分点(48.4 -> 64.7)。结果表明,3DThinker将性能提升到了新的水平,在各个基准上均显示出显著提升。

可解释性
3DThinker的另一个显著特点是具备一定程度的可解释性。
这意味着,3D隐变量可以通过设计的投影器直接恢复为3D表示,从而使模型的推理过程不再完全是一个“黑箱”。有趣的是,3DThinker观察到,与提示词高度相关的区域,其点云密度往往更高。

总结
从“看图说话”到“看图想空间”,3DThinker为视觉语言模型的推理开辟了一条新路径。
其巧妙之处在于找到了一条“无监督蒸馏”的路径:无需昂贵的3D标注数据,也不依赖外部深度传感器,而是让模型在推理过程中自发地“脑补”出三维场景。
这种“思维即几何”的设计理念,在某种程度上复现了人类的空间认知本能。当3D想象与具身智能结合,当空间推理能够实时反馈并修正时,我们或许正在接近一个能真正“看懂”物理世界的AI。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25177
