自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。

当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。

为此,本文提出了 Mixture-of-Visual-Thoughts 这一自适应推理范式。其核心目标是将不同的推理模式整合到一个统一的模型内部,并引导模型根据具体问题自适应地选择最合适的推理模式。为实现这一目标,研究者设计了一个两阶段学习框架 AdaVaR:首先通过监督微调让模型学习不同的推理模式;随后,专门设计了一种名为 AdaGRPO强化学习算法,引导模型学习如何根据问题上下文选择合适的推理模式。

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

  • 论文标题:Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
  • 论文链接:https://arxiv.org/pdf/2509.22746
  • 代码链接:https://github.com/Future-Living-Lab/mixture-of-visual-thoughts
  • 模型下载:https://huggingface.co/collections/ZejunLi/adavar-models

背景:视觉推理的不同思考模式

目前,针对大型视觉语言模型的视觉推理方法已有大量探索,主流推理范式主要包括以下两种:

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
图 1:两种推理模式的直观对比。

  1. 纯文本思考模式:与 LLM 一致,完全使用自然语言描述推理过程。
  2. 视觉化思考模式:通过结构化信息(如边界框坐标)将推理过程中的关键概念与图像中的具体区域对应起来。更进一步,可以将对应的局部区域裁剪、缩放后输入模型,帮助其利用更精细的视觉信息,这类似于 GPT-4o 中提到的“用图像思考”概念。

这两种模式的不同设计,使其在不同任务上表现出不同的优劣。以下图基于 Qwen2.5-VL-7B 构建的不同推理模型为例(正/负值代表相对于基座模型的性能提升/下降):

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
图 2:基于 Qwen2.5-VL-7B 的不同推理模式模型相对于基座的性能变化。

  • 文本思考模式更擅长处理抽象的视觉问题(如数学几何题),但可能产生幻觉,且在需要视觉搜索的任务上表现不佳(存在过度思考和语言偏见问题)。
  • 视觉化思考模式更擅长定位和利用具体的视觉信息,能有效抑制幻觉,但在处理抽象数学问题时提升有限(对于角度、大小等抽象概念,进行视觉定位难以提供有效信息)。

受此启发,本文旨在探索一个核心问题:能否博采众长,将不同思考模式在不同领域的互补优势整合起来,从而提升模型的通用视觉推理能力?

Mixture-of-Visual-Thoughts:自适应的视觉推理范式

基于上述想法,本文提出了 Mixture-of-Visual-Thoughts,简称 MoVT。这是一种自适应的视觉推理范式,旨在构建一个统一的推理模型,使其能够:(1)具备多种思考模式;(2)根据问题自适应地选择最合适的模式。

作为对 MoVT 范式的初步探索,研究者提出了 AdaVaR 学习框架,通过两个阶段的训练来构建具备自适应推理能力的模型:

  1. 模式整合:在推理序列的开头,为不同模式引入对应的特殊前缀标记,如 <text><ground>,作为指示符帮助模型区分推理模式。随后通过监督微调整合数据,让模型学习不同的思考模式。
  2. 模式选择:设计了 AdaGRPO 强化学习算法来引导模型进行模式选择。其核心步骤是:i. 通过固定模式前缀标记,引导模型对同一问题分别使用不同思考模式生成多条推理路径;ii. 设计特殊的优势值计算方法:既计算路径层面的优势以增强模型的推理能力,也计算模式间的相对优势,以引导模型选择更优的思考模式。

具体方法的介绍和细节将在下一节展开。

研究者在多个场景下的多个数据集上进行了评测。如图 2 所示,与单一模式模型仅在特定场景表现突出不同,AdaVaR 模型在多项任务上均取得了一致的性能提升。从 8 个数据集的平均性能来看,AdaVaR-3B 模型能够媲美 Qwen2.5-VL-7B,而 AdaVaR-7B 模型的性能甚至超越了 GPT-4o。

AdaVaR:思维模式的整合和训练方法

通过前缀标记统一不同思考模式

首先,研究者的目标是让多种思考模式在同一个模型中共存。为此,他们设计了一种统一的推理序列格式,通过特殊的模式前缀标记来区分不同模式:

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

其中,蓝色部分为模式前缀标记,红色部分为对应的思考过程。在自回归生成设定下,生成这样的推理序列相当于在一次生成中先后完成了:(1)根据问题生成前缀标记,完成模式选择;(2)根据选择的模式进行对应的思考。模式前缀标记的引入不仅帮助模型区分了不同模式,也为后续强化学习算法中对思考模式的干预提供了支持。

基于这种统一格式,研究者收集了两种模式对应的数据对模型进行监督微调,使模型初步具备了以两种模式进行思考的能力。

AdaGRPO:引导模型进行模式选择

接下来,研究者希望模型能够自适应地根据问题选择合适的推理模式。他们在强化学习环境下进行此项学习,核心思想是:对于同一个问题,模型将分别使用两种模式各生成 n 条推理路径。与其他方法类似,研究者以答案的正确性为导向,基于规则判断对错作为奖励信号。然后,基于路径之间、模式之间的比较,设计了一种双层次的优势值计算方式,以鼓励模型生成更好的推理路径,同时选择更优的思考模式。

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
图 3:AdaGRPO 与 GRPO 的比较。

为此,研究者在 GRPO 的基础上设计了 AdaGRPO,主要进行了以下优化:

  1. 前缀引导的探索:GRPO 中的路径生成过程是自由的,可能导致对模式的探索不均衡(例如,对同一问题生成的所有路径都来自同一种模式)。在 AdaGRPO 中,研究者通过固定模式前缀,强制模型生成的前 n 条和后 n 条路径分别来自文本思考和视觉化思考模式。
  2. 自适应优势值计算:GRPO 仅计算路径层面的优势值 A_i = (r_i – Mean) / Std 来提升推理能力,并且为路径中的所有标记赋予相同的优势值。为了显式地引导模式选择,AdaGRPO 进行了如下设计:
    • a. 引入模式间相对优势:以相对胜率刻画了两个模式之间的相对优势 A_t 和 A_v(例如,A_t 表示对于该问题,使用文本推理模式得到的奖励高于视觉化模式的概率,反之亦然)。

b. 优势函数分配策略

如前一节所述,模式前缀标记与思维过程在推理序列中承担着不同的角色。因此,在 AdaGRPO 算法中,我们将不同的优势(Advantage)赋予不同的标记:将优势 (A_t) 和 (A_v) 分配给模式前缀标记,以鼓励模型做出合适的模式选择;将优势 (A_i) 分配给思维过程的标记,以直接提升模型的推理能力。

课程学习数据构造

我们还设计了一种课程学习(Curriculum Learning)策略来构造训练数据。训练初期,模型在简单混合的数据集(如几何题和物体计数任务)上进行学习。随着训练推进,数据逐步过渡到多个复杂任务混合的集合,且题目难度由易到难递增。这种策略旨在引导模型循序渐进地掌握从简单到复杂的推理能力,并学会在不同任务间自适应地选择推理模式。

实验结果

我们基于 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型,构建了相应的 AdaVaR-3B 和 AdaVaR-7B 模型。在 8 个基准数据集上,我们将其与基于相同基座模型的其他推理方法进行了全面比较。

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
表 1:不同模型的性能对比。黄色背景代表纯文本推理模型,绿色背景代表基于视觉的 Grounded 推理模型,蓝色背景代表本文提出的 AdaVaR 模型。

主要实验结果如下:

  1. 单一模式模型的局限性:实验结果验证了背景论述,即仅依赖单一思考模式的模型通常是特定领域的专家,难以获得通用性能提升。具体而言:

    • 文本推理模型(如 VLAA-Thinker-3B 和 OVR-7B)在数学任务上表现出色,但在涉及物体识别与定位的问题上表现不佳。
    • Grounded 推理模型在 V* 和 POPE 等视觉问答数据集上表现良好,但在数学任务上普遍不理想。除 DeepEyes 外,其他模型均难以保持基座模型原有的数学推理能力。
  2. AdaVaR 的全面优势:AdaVaR-3B 和 AdaVaR-7B 是唯一在所有评测任务上均超越 Qwen2.5-VL 基座模型的变体。在 MathVista、WeMath、POPE 等数据集上取得了最优性能,在 MMStar 和 MathVision 上也达到了最优或次优水平。

  3. 总体性能领先:从平均准确率来看,AdaVaR-3B/7B 在各自参数量组别中均为最优。AdaVaR-3B 是唯一达到 Qwen2.5-VL-7B 水平的 3B 模型,而 AdaVaR-7B 的平均表现甚至优于 GPT-4o。

深入分析自适应推理机制

为了深入理解自适应推理的工作机制,我们进一步探究了以下几个关键问题:

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
表 2:不同模式下,模型在不同训练阶段的性能。下标 T 和 G 分别代表固定使用文本模式和 Grounded 模式。GRD% 代表自适应模型选择 Grounded 模式的比例。

Q1: 单个模型能否以及如何学会不同的推理模式?

从表 2 可以看出,经过监督微调(SFT)和强化学习(RL)后,AdaVaR 模型在两种模式下展现出截然不同的能力倾向:文本模式擅长数学推理,而 Grounded 模式善于处理物体导向问题。

  • Q1.1: 仅增加数据多样性,使用单一模式是否足够?

    • 答案:否。 我们使用与 AdaVaR 相同的数据训练了两个单一模式的基线模型(Grounded-SFT-RL 和 Text-SFT-RL)。它们的性能均不及 AdaVaR,这证明了 MoVT 范式整合两种模式的有效性。
  • Q1.2: 两种模式在同一个模型内会相互排斥吗?

    • 答案:否。 对比单一模式基线模型与 AdaVaR 在各自模式下的性能,我们发现差异不大,且相比 SFT 阶段均有显著提升。这表明将两种模式整合到一个模型内并不会抑制任一模式的独立发展。
  • Q1.3: 是否需要显式的模式前缀(Mode Prefix)来区分模式?

    • 答案:是。 表 2 中的 Mix-SFT-RL 基线模型去除了模式前缀,直接混合两种模式的数据进行训练。其性能甚至低于单一模式模型,说明显式的模式区分是必要的。这种区分也为后续 AdaGRPO 中基于前缀引导的探索(prefix-guided exploration)提供了基础。
  • Q1.4: 两种模式是互补的吗?

    • 答案:是。 表 2 中计算了 AdaVaR 的理论上限(Upper Bound),即任一模式答对即算正确。结果显示,即使在文本模式占优的数学题上,理论上限也显著高于纯文本模式的准确率,这揭示了 MoVT 范式未来巨大的潜力空间。

Q2: 模型能否学会合理的模式选择能力?是如何学会的?

对比表 2 中单一模式与自适应模式的表现,我们发现:
1. 在 SFT 阶段后,模型的模式选择并非最优。例如在 MathVista 数据集上,文本模式明显更优,但 AdaVaR-SFT 仍选择了 31% 的 Grounded 模式,表明 SFT 阶段难以精确控制模式选择。
2. 在 RL 阶段后,AdaVaR 的模式选择变得合理:在数学问题上倾向于选择文本模式,在 V* 和 POPE 上倾向于选择 Grounded 模式。同时,在所有任务上,自适应模式的表现均优于固定使用单一模式,证明模型在 RL 阶段学会了合理的模式选择能力。

  • Q2.1: 模型是如何习得这种能力的?
    自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
    图 4:数学问题上的 (a) 训练奖励曲线;(b) MathVista 数据集上的性能表现。

    答案: 如图 4 所示,以数学问题为例,模型的学习过程大致分为三个阶段:
    1. 初期探索阶段:训练开始时,两种模式的相对性能优劣尚不稳定,Grounded 模式甚至一度表现更佳,导致模式选择出现波动。
    2. 稳定学习阶段:约 500 步后,文本模式的奖励开始持续高于 Grounded 模式,模型的选择也逐渐稳定为以文本模式为主。但此时自适应模式的表现仍弱于纯文本模式,说明模型尚未学会在特定题目上何时应选用 Grounded 模式。
    3. 精细微调阶段:约 1500 步后,通过引入分布更广的数据,模型学习了更精细的推理和模式选择策略。两种模式的性能均得到提升,并且自适应模式最终超越了任一单一模式。

  • Q2.2: 影响模式选择的关键因素是什么?
    答案: 我们发现,AdaGRPO 中的几个关键机制——包括基于前缀引导的探索、自适应优势函数分配,以及数据的多样性和课程学习策略——都至关重要。详细的消融实验分析可参见原论文的 Table 3。

结论与未来展望

本文表明,MoVT(多模式视觉思维)范式通过整合多种推理模式,是构建通用视觉推理能力的一条可行路径。而 AdaGRPO 算法则能有效学习自适应模式选择。更广泛地看,MoVT 从思维模式的角度增加了模型推理轨迹的多样性,促进了强化学习过程中的探索。

当然,本研究对自适应推理的探索仍存在一些局限性,为未来工作指明了方向:

  • 更丰富的推理模式:为了保持两种模式输出格式的一致性,本文采用的 Grounded 思考模式并未像某些现有工作那样引入额外的局部视觉特征。未来如何在统一框架内整合差异更大的思考模式值得探索。
  • 扩展模式数量:本文目前仅整合了两种推理模式。MoVT 框架本身可容纳更多模式,例如可用于学习当前备受关注的“思考/不思考”自适应切换能力,甚至区分长思考、短思考、是否使用工具等不同决策。
  • 探索与利用的平衡:随着未来思考模式种类的增加,必然会面临更严峻的探索-利用权衡问题:模式越多,为平衡模式间探索所付出的代价越大,可能导致每个模式内部获得的训练数据减少,进而抑制各模式自身能力的提升。

  • 当前 MoVT 采用并行模式选择范式。未来可进一步结合搜索机制,探索线性模式切换等更复杂的逻辑,例如先进行短思考,再根据情况决定是否进行长思考,以持续提升模型的推理能力上限。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20384

(0)
上一篇 6天前
下一篇 6天前

相关推荐

  • 思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

    在 LLM 时代,思维链(CoT)已成为解锁模型复杂推理能力的关键技术。然而,CoT 的冗长问题一直困扰着研究者——生成大量的中间推理文本步骤,带来了巨大的计算开销和显存占用,严重制约了推理效率。 为了解决这个问题,研究界近期尝试了「隐式 CoT」(Implicit CoT),即让模型在内部隐状态中完成推理,而不输出具体文本。这种方法虽然速度快,却是一个「黑…

    2026年1月23日
    5800
  • MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

    MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍 让大模型轻松处理比自身上下文窗口长两个数量级的超长文本! MIT CSAIL研究团队提出了一种名为递归语言模型(RLM) 的长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文…

    2026年1月19日
    9900
  • 阿里ReWatch-R1:让大模型学会“回看”视频推理,基于证据链思考告别幻觉

    为什么“逐步思考”在视频推理中会失效? 在数学推理任务中,让大模型“一步一步思考”通常能显著提升性能。然而,当同样的方法被应用于视频问答时,效果却常常不尽如人意,有时甚至不如让模型“直接回答”。 来自阿里巴巴未来生活实验室的研究团队指出,其根源在于任务性质的根本差异:数学推理是纯文本的逻辑推演,而视频推理要求模型在视觉信息与文本逻辑之间反复穿梭、交叉验证。简…

    2026年1月29日
    8000
  • 英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命

    这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…

    2025年12月25日
    11300
  • RAG延迟削减97%!REFRAG技术揭秘:压缩、感知、扩展三阶段实现效率飞跃

    传统RAG为何低效:冗余与延迟的根源 传统检索增强生成(RAG)流水线通常将检索到的多个文本片段直接拼接,作为上下文输入给大语言模型。然而,这些片段之间往往缺乏紧密的语义关联,导致模型在处理时需要为大量无关内容计算注意力权重。这不仅浪费了宝贵的计算资源,更关键的是,模型将大量时间耗费在了跨片段(cross-chunk)的、近乎无效的注意力计算上,效率低下。 …

    2025年11月26日
    10600