自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

本文介绍了复旦大学与阿里巴巴未来生活实验室的研究成果,该工作已被 ICLR 2026 接收。

当前,视觉推理方法主要衍生出两种思考模式:一种是与大型语言模型一致的纯文本思考模式;另一种是更贴近图像本身的视觉化思考模式。这两种模式在不同任务领域各有优势,但现有工作通常只专注于单一模式,未能充分利用二者之间的互补性。

为此,本文提出了 Mixture-of-Visual-Thoughts 这一自适应推理范式。其核心目标是将不同的推理模式整合到一个统一的模型内部,并引导模型根据具体问题自适应地选择最合适的推理模式。为实现这一目标,研究者设计了一个两阶段学习框架 AdaVaR:首先通过监督微调让模型学习不同的推理模式;随后,专门设计了一种名为 AdaGRPO强化学习算法,引导模型学习如何根据问题上下文选择合适的推理模式。

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

  • 论文标题:Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
  • 论文链接:https://arxiv.org/pdf/2509.22746
  • 代码链接:https://github.com/Future-Living-Lab/mixture-of-visual-thoughts
  • 模型下载:https://huggingface.co/collections/ZejunLi/adavar-models

背景:视觉推理的不同思考模式

目前,针对大型视觉语言模型的视觉推理方法已有大量探索,主流推理范式主要包括以下两种:

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
图 1:两种推理模式的直观对比。

  1. 纯文本思考模式:与 LLM 一致,完全使用自然语言描述推理过程。
  2. 视觉化思考模式:通过结构化信息(如边界框坐标)将推理过程中的关键概念与图像中的具体区域对应起来。更进一步,可以将对应的局部区域裁剪、缩放后输入模型,帮助其利用更精细的视觉信息,这类似于 GPT-4o 中提到的“用图像思考”概念。

这两种模式的不同设计,使其在不同任务上表现出不同的优劣。以下图基于 Qwen2.5-VL-7B 构建的不同推理模型为例(正/负值代表相对于基座模型的性能提升/下降):

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
图 2:基于 Qwen2.5-VL-7B 的不同推理模式模型相对于基座的性能变化。

  • 文本思考模式更擅长处理抽象的视觉问题(如数学几何题),但可能产生幻觉,且在需要视觉搜索的任务上表现不佳(存在过度思考和语言偏见问题)。
  • 视觉化思考模式更擅长定位和利用具体的视觉信息,能有效抑制幻觉,但在处理抽象数学问题时提升有限(对于角度、大小等抽象概念,进行视觉定位难以提供有效信息)。

受此启发,本文旨在探索一个核心问题:能否博采众长,将不同思考模式在不同领域的互补优势整合起来,从而提升模型的通用视觉推理能力?

Mixture-of-Visual-Thoughts:自适应的视觉推理范式

基于上述想法,本文提出了 Mixture-of-Visual-Thoughts,简称 MoVT。这是一种自适应的视觉推理范式,旨在构建一个统一的推理模型,使其能够:(1)具备多种思考模式;(2)根据问题自适应地选择最合适的模式。

作为对 MoVT 范式的初步探索,研究者提出了 AdaVaR 学习框架,通过两个阶段的训练来构建具备自适应推理能力的模型:

  1. 模式整合:在推理序列的开头,为不同模式引入对应的特殊前缀标记,如 <text><ground>,作为指示符帮助模型区分推理模式。随后通过监督微调整合数据,让模型学习不同的思考模式。
  2. 模式选择:设计了 AdaGRPO 强化学习算法来引导模型进行模式选择。其核心步骤是:i. 通过固定模式前缀标记,引导模型对同一问题分别使用不同思考模式生成多条推理路径;ii. 设计特殊的优势值计算方法:既计算路径层面的优势以增强模型的推理能力,也计算模式间的相对优势,以引导模型选择更优的思考模式。

具体方法的介绍和细节将在下一节展开。

研究者在多个场景下的多个数据集上进行了评测。如图 2 所示,与单一模式模型仅在特定场景表现突出不同,AdaVaR 模型在多项任务上均取得了一致的性能提升。从 8 个数据集的平均性能来看,AdaVaR-3B 模型能够媲美 Qwen2.5-VL-7B,而 AdaVaR-7B 模型的性能甚至超越了 GPT-4o。

AdaVaR:思维模式的整合和训练方法

通过前缀标记统一不同思考模式

首先,研究者的目标是让多种思考模式在同一个模型中共存。为此,他们设计了一种统一的推理序列格式,通过特殊的模式前缀标记来区分不同模式:

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换

其中,蓝色部分为模式前缀标记,红色部分为对应的思考过程。在自回归生成设定下,生成这样的推理序列相当于在一次生成中先后完成了:(1)根据问题生成前缀标记,完成模式选择;(2)根据选择的模式进行对应的思考。模式前缀标记的引入不仅帮助模型区分了不同模式,也为后续强化学习算法中对思考模式的干预提供了支持。

基于这种统一格式,研究者收集了两种模式对应的数据对模型进行监督微调,使模型初步具备了以两种模式进行思考的能力。

AdaGRPO:引导模型进行模式选择

接下来,研究者希望模型能够自适应地根据问题选择合适的推理模式。他们在强化学习环境下进行此项学习,核心思想是:对于同一个问题,模型将分别使用两种模式各生成 n 条推理路径。与其他方法类似,研究者以答案的正确性为导向,基于规则判断对错作为奖励信号。然后,基于路径之间、模式之间的比较,设计了一种双层次的优势值计算方式,以鼓励模型生成更好的推理路径,同时选择更优的思考模式。

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
图 3:AdaGRPO 与 GRPO 的比较。

为此,研究者在 GRPO 的基础上设计了 AdaGRPO,主要进行了以下优化:

  1. 前缀引导的探索:GRPO 中的路径生成过程是自由的,可能导致对模式的探索不均衡(例如,对同一问题生成的所有路径都来自同一种模式)。在 AdaGRPO 中,研究者通过固定模式前缀,强制模型生成的前 n 条和后 n 条路径分别来自文本思考和视觉化思考模式。
  2. 自适应优势值计算:GRPO 仅计算路径层面的优势值 A_i = (r_i – Mean) / Std 来提升推理能力,并且为路径中的所有标记赋予相同的优势值。为了显式地引导模式选择,AdaGRPO 进行了如下设计:
    • a. 引入模式间相对优势:以相对胜率刻画了两个模式之间的相对优势 A_t 和 A_v(例如,A_t 表示对于该问题,使用文本推理模式得到的奖励高于视觉化模式的概率,反之亦然)。

b. 优势函数分配策略

如前一节所述,模式前缀标记与思维过程在推理序列中承担着不同的角色。因此,在 AdaGRPO 算法中,我们将不同的优势(Advantage)赋予不同的标记:将优势 (A_t) 和 (A_v) 分配给模式前缀标记,以鼓励模型做出合适的模式选择;将优势 (A_i) 分配给思维过程的标记,以直接提升模型的推理能力。

课程学习数据构造

我们还设计了一种课程学习(Curriculum Learning)策略来构造训练数据。训练初期,模型在简单混合的数据集(如几何题和物体计数任务)上进行学习。随着训练推进,数据逐步过渡到多个复杂任务混合的集合,且题目难度由易到难递增。这种策略旨在引导模型循序渐进地掌握从简单到复杂的推理能力,并学会在不同任务间自适应地选择推理模式。

实验结果

我们基于 Qwen2.5-VL-3B 和 Qwen2.5-VL-7B 模型,构建了相应的 AdaVaR-3B 和 AdaVaR-7B 模型。在 8 个基准数据集上,我们将其与基于相同基座模型的其他推理方法进行了全面比较。

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
表 1:不同模型的性能对比。黄色背景代表纯文本推理模型,绿色背景代表基于视觉的 Grounded 推理模型,蓝色背景代表本文提出的 AdaVaR 模型。

主要实验结果如下:

  1. 单一模式模型的局限性:实验结果验证了背景论述,即仅依赖单一思考模式的模型通常是特定领域的专家,难以获得通用性能提升。具体而言:

    • 文本推理模型(如 VLAA-Thinker-3B 和 OVR-7B)在数学任务上表现出色,但在涉及物体识别与定位的问题上表现不佳。
    • Grounded 推理模型在 V* 和 POPE 等视觉问答数据集上表现良好,但在数学任务上普遍不理想。除 DeepEyes 外,其他模型均难以保持基座模型原有的数学推理能力。
  2. AdaVaR 的全面优势:AdaVaR-3B 和 AdaVaR-7B 是唯一在所有评测任务上均超越 Qwen2.5-VL 基座模型的变体。在 MathVista、WeMath、POPE 等数据集上取得了最优性能,在 MMStar 和 MathVision 上也达到了最优或次优水平。

  3. 总体性能领先:从平均准确率来看,AdaVaR-3B/7B 在各自参数量组别中均为最优。AdaVaR-3B 是唯一达到 Qwen2.5-VL-7B 水平的 3B 模型,而 AdaVaR-7B 的平均表现甚至优于 GPT-4o。

深入分析自适应推理机制

为了深入理解自适应推理的工作机制,我们进一步探究了以下几个关键问题:

自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
表 2:不同模式下,模型在不同训练阶段的性能。下标 T 和 G 分别代表固定使用文本模式和 Grounded 模式。GRD% 代表自适应模型选择 Grounded 模式的比例。

Q1: 单个模型能否以及如何学会不同的推理模式?

从表 2 可以看出,经过监督微调(SFT)和强化学习(RL)后,AdaVaR 模型在两种模式下展现出截然不同的能力倾向:文本模式擅长数学推理,而 Grounded 模式善于处理物体导向问题。

  • Q1.1: 仅增加数据多样性,使用单一模式是否足够?

    • 答案:否。 我们使用与 AdaVaR 相同的数据训练了两个单一模式的基线模型(Grounded-SFT-RL 和 Text-SFT-RL)。它们的性能均不及 AdaVaR,这证明了 MoVT 范式整合两种模式的有效性。
  • Q1.2: 两种模式在同一个模型内会相互排斥吗?

    • 答案:否。 对比单一模式基线模型与 AdaVaR 在各自模式下的性能,我们发现差异不大,且相比 SFT 阶段均有显著提升。这表明将两种模式整合到一个模型内并不会抑制任一模式的独立发展。
  • Q1.3: 是否需要显式的模式前缀(Mode Prefix)来区分模式?

    • 答案:是。 表 2 中的 Mix-SFT-RL 基线模型去除了模式前缀,直接混合两种模式的数据进行训练。其性能甚至低于单一模式模型,说明显式的模式区分是必要的。这种区分也为后续 AdaGRPO 中基于前缀引导的探索(prefix-guided exploration)提供了基础。
  • Q1.4: 两种模式是互补的吗?

    • 答案:是。 表 2 中计算了 AdaVaR 的理论上限(Upper Bound),即任一模式答对即算正确。结果显示,即使在文本模式占优的数学题上,理论上限也显著高于纯文本模式的准确率,这揭示了 MoVT 范式未来巨大的潜力空间。

Q2: 模型能否学会合理的模式选择能力?是如何学会的?

对比表 2 中单一模式与自适应模式的表现,我们发现:
1. 在 SFT 阶段后,模型的模式选择并非最优。例如在 MathVista 数据集上,文本模式明显更优,但 AdaVaR-SFT 仍选择了 31% 的 Grounded 模式,表明 SFT 阶段难以精确控制模式选择。
2. 在 RL 阶段后,AdaVaR 的模式选择变得合理:在数学问题上倾向于选择文本模式,在 V* 和 POPE 上倾向于选择 Grounded 模式。同时,在所有任务上,自适应模式的表现均优于固定使用单一模式,证明模型在 RL 阶段学会了合理的模式选择能力。

  • Q2.1: 模型是如何习得这种能力的?
    自适应视觉推理新突破:MoVT范式让AI学会“看图说话”与“文字思考”的智能切换
    图 4:数学问题上的 (a) 训练奖励曲线;(b) MathVista 数据集上的性能表现。

    答案: 如图 4 所示,以数学问题为例,模型的学习过程大致分为三个阶段:
    1. 初期探索阶段:训练开始时,两种模式的相对性能优劣尚不稳定,Grounded 模式甚至一度表现更佳,导致模式选择出现波动。
    2. 稳定学习阶段:约 500 步后,文本模式的奖励开始持续高于 Grounded 模式,模型的选择也逐渐稳定为以文本模式为主。但此时自适应模式的表现仍弱于纯文本模式,说明模型尚未学会在特定题目上何时应选用 Grounded 模式。
    3. 精细微调阶段:约 1500 步后,通过引入分布更广的数据,模型学习了更精细的推理和模式选择策略。两种模式的性能均得到提升,并且自适应模式最终超越了任一单一模式。

  • Q2.2: 影响模式选择的关键因素是什么?
    答案: 我们发现,AdaGRPO 中的几个关键机制——包括基于前缀引导的探索、自适应优势函数分配,以及数据的多样性和课程学习策略——都至关重要。详细的消融实验分析可参见原论文的 Table 3。

结论与未来展望

本文表明,MoVT(多模式视觉思维)范式通过整合多种推理模式,是构建通用视觉推理能力的一条可行路径。而 AdaGRPO 算法则能有效学习自适应模式选择。更广泛地看,MoVT 从思维模式的角度增加了模型推理轨迹的多样性,促进了强化学习过程中的探索。

当然,本研究对自适应推理的探索仍存在一些局限性,为未来工作指明了方向:

  • 更丰富的推理模式:为了保持两种模式输出格式的一致性,本文采用的 Grounded 思考模式并未像某些现有工作那样引入额外的局部视觉特征。未来如何在统一框架内整合差异更大的思考模式值得探索。
  • 扩展模式数量:本文目前仅整合了两种推理模式。MoVT 框架本身可容纳更多模式,例如可用于学习当前备受关注的“思考/不思考”自适应切换能力,甚至区分长思考、短思考、是否使用工具等不同决策。
  • 探索与利用的平衡:随着未来思考模式种类的增加,必然会面临更严峻的探索-利用权衡问题:模式越多,为平衡模式间探索所付出的代价越大,可能导致每个模式内部获得的训练数据减少,进而抑制各模式自身能力的提升。

  • 当前 MoVT 采用并行模式选择范式。未来可进一步结合搜索机制,探索线性模式切换等更复杂的逻辑,例如先进行短思考,再根据情况决定是否进行长思考,以持续提升模型的推理能力上限。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20384

(0)
上一篇 2026年2月5日 下午12:12
下一篇 2026年2月5日 下午12:39

相关推荐

  • AI普惠革命:从技术精英到全民触达,新兴市场如何成为AI终局的关键战场

    在2025年这个被称为“AI大年”的时间节点,一个令人深思的现象正在全球范围内浮现:尽管AI技术日新月异,但全球超过99.5%的普通人仍然无法真正享受到AI带来的生产力红利。这种普及率与应用密度的严重失衡,揭示了当前AI产业发展的深层结构性矛盾。 与舆论在“AI技术狂欢”与“AI泡沫破裂”两极间摇摆不同,Agnes AI创始人Bruce Yang敏锐地洞察到…

    2025年12月1日
    20100
  • 超越能跑就行:Agent评测的三层四维框架与实战指南

    传统 Agent 评测的三大盲区 当前主流的 Agent 评测方式,主要关注任务完成率这一单一指标。这种评测方式存在三个显著盲区: 盲区一:只评结果,不评过程Agent 完成了任务,但中间调用了多次不必要的工具、走了弯路,这种「低效完成」和「高效完成」在传统评测中得分相同。 盲区二:只评能力,不评工程化Agent 在实验环境表现优秀,但无法部署到生产环境、无…

    2026年2月1日
    46900
  • 扩散语言模型:从架构挑战到推理优化的深度探索

    ★ 原文链接:https://zhuanlan.zhihu.com/p/1998418717743289472 作者:王云鹤 在思考这一主题时,我首先回想起多年前一位前辈提出的问题:Transformer的下一代范式是什么? 我当时认为,Transformer是长期技术积累从量变到质变的成果,其思想(如Non-local模块)在早期视觉研究中已有体现,而卷积…

    2026年2月8日
    16500
  • 从春晚舞台到全球瞩目:宇树机器人如何通过《武BOT》实现人形机器人集群武术表演的技术突破

    宇树的“赛博功夫”,火到海外了。 当机器人开始显露“真功夫”,春晚的科技叙事变了。过去几年,机器人登上各种大大小小的舞台,更多是承载一种科技符号,它们或是节奏偏慢的舞蹈方阵,或是呆萌可爱的互动玩偶,观众图个新鲜,看个热闹。但2026年马年春晚,宇树科技带着G1与H2人形机器人登场的那一刻,几乎所有人意识到:机器人演示进入下一个阶段了。 跑酷、翻桌、单腿连续空…

    2026年2月18日
    25700
  • 理想前智驾一号位郎咸朋联手阿里前副总裁任庚,昆仑行3月注册即成独角兽,具身智能赛道再掀资本狂潮

    一家具身智能公司,3月初刚刚注册,3月尚未结束,估值已远超10亿美元。 这家公司名为“昆仑行”,由理想汽车前智驾一号位郎咸朋与阿里巴巴前副总裁任庚携手创立。 据悉,昆仑行已迅速完成三轮融资,跻身独角兽行列,成为今年以来最受资本关注的具身智能新势力之一。 企查查数据显示,北京昆仑行机器人科技有限公司注册于2026年3月16日,经营范围涵盖智能机器人研发与销售、…

    6小时前
    700