三维场景理解
-
清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架
给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…
给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…