三维场景理解

大模型工程

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

给定几张场景图片，人类往往能在脑海中想象出该场景的三维布局。然而，当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理，难以有效表达图像中隐含的几何结构。为此，清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。论文地址：https://arxiv.org/pdf/2510.18632 代码地址：…

2026年3月11日
251000