自适应学习
-
自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。 当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。 为此,本文提出了 Mixture-of-Vi…
本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。 当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。 为此,本文提出了 Mixture-of-Vi…