当前,测试时扩展范式普遍致力于增加推理长度。然而,已有研究指出,随着推理序列持续增长,以垂直扩展为核心的计算范式容易陷入探索僵化等困境。因此,从另一维度拓展推理宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面进行了有益的尝试。
但在视觉任务中,深度推理仍面临严峻挑战:随着推理序列的延长,模型对视觉特征的注意力被不断稀释,导致“注意力漂移”,从而引发严重的视觉幻觉。
为此,我们提出了 Visual Para-Thinker:这是首个面向大规模视觉语言模型的并行思考框架,并深入分析了该框架在视觉任务中发挥作用的内在机制。我们将 Pa-Attention(并行注意力机制)和 LPRoPE(分段学习位置编码)机制融入我们的方法中,从而实现了不同推理路径的隔离性、无偏性和可区分性。

- 论文标题:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
- 论文链接: https://arxiv.org/abs/2602.13310
- 主页链接: https://github.com/xuhaoran1/Visual-Para-Thinker
并行推理路径:以视觉为中心划分
过往研究提出的并行思考范式,其核心在于通过拓展推理宽度来提升模型性能,基本原则是“保持推理路径的多样性”。我们的 Visual Para-Thinker 同样遵循这一原则。然而,针对视觉语言模型的特性,我们进一步提出了一种以视觉为中心的路径划分方式,并认为其本质在于对视觉 token 注意力的重新分配。由此,我们提出了两种视觉划分的分配模式:块划分和扫描划分。

块划分:这种策略是根据特定的区域子图来划分推理路径的。在此配置下,每条路径都会吸引独特的视觉注意力分布,这种分布集中在指定的子区域,例如左上角、右上角、左下角或右下角等象限,如图 (a) 所示。
扫描划分:这种方法通过采用不同的视觉扫描轨迹来区分推理路径。具体而言,每条路径代表一种独特的视觉注意力分配,这种分配对应于一个预定义的扫描顺序,例如从左到右、从上到下、从右到左以及从下到上,如图 (b) 所示。
这两种视觉划分方式各有优劣:块划分虽然能够生成不同的子区域,但可能导致不同路径之间的计算冗余;而扫描划分虽结构简洁,却容易削弱路径之间的多样性。为此,我们采用混合训练策略,将两种划分方式生成的数据共同用于模型训练,以实现优势互补。

块划分方式下不同路径对视觉令牌注意力分配模式的可视化
视觉并行思考框架
基于以上两种视觉路径的划分方式,我们提出了视觉并行思考框架。该框架分为并行思考阶段和总结阶段,并维护了不同并行推理路径的隔离性、无偏性和可区分性。
- 并行思考阶段:基于共同的上下文,通过视觉划分这一理念,分配不同推理路径的思考方向。
- 总结阶段:将不同并行推理路径的背景信息进行整合,并综合考虑这些信息以得出最终结论。

隔离性
为了保证推理路径的隔离性,我们提出了 Path-aware Attention(路径感知注意力)。不同于因果注意力,路径感知注意力通过不同 <think i> 的特殊 token 实现不同路径的上下文隔离范式。

无偏性
为了保证推理路径的可区分性,过往的做法是将不同路径的 position id 赋予不同的区间,以实现路径之间的可区分性。然而,由于大语言模型的固有偏差,此时不同区间的 position id 存在先后顺序,会出现 loss in the middle 等现象。不同路径的思考权重会存在天生的位置偏差,我们认为这种方法因为不能将不同推理路径等同看待,本质上依然是串行思考。基于以上见解,我们将不同路径的 position id 赋予相同的区间。具体来说,在并行推理阶段,不同路径的起始 token 的 position id 相同。

而在总结阶段,总结 token 的起始 token 则取最长的推理路径的结束 token 的 position id + 1。

这使得不同推理路径在 Visual Para-Thinker 模型看来不存在固有的位置偏差,因而保证了无偏性。
可区分性
然而,上述将不同路径的位置编码映射为同一区间的做法仅仅保证了其无偏性,但损伤了不同路径的可区分性。如果直接使用这种位置编码,会导致 Visual Para-Thinker 混淆不同的推理路径,导致最终结果错误。因此,我们提出了 Learnable Parallel Rotary Position Embedding(LPRoPE)。具体来说,我们在不同 token 进行旋转位置编码之前,加入该 token 所属推理路径的可学习位置编码,将旋转位置编码和可学习的绝对位置编码相结合,最终实现路径的可区分性。

数据与实验
训练配方
我们构建了一个包含 163,000 个问题-答案对的并行推理数据集,数据来源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。
在我们的数据构建框架中,Qwen3-VL-235B-A22BInstruct 充当教师模型。我们通过在温度为 0.1 的条件下实施一种融合了基于块的分区和扫描顺序分区的混合视觉分区策略,为每个样本生成四条以视觉为中心的推理路径。此外,我们还利用高温的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 来生成更多样化的数据和检查样本。

图一
实验结果
我们的实验主要在以视觉为中心的视觉感知类任务中进行,包括计数任务(Pixmo、CountBench)、视觉搜索(V)、幻觉任务(MMVP、HallusionBench)及视觉定位(RefCOCO)等多种视觉感知任务。通过开展大量实验,我们验证了所提方法的有效性。如图一所示,我们的方法在 V 任务上分别在 3B 和 7B 上获得了 12.6 和 6.3 的提升。另一方面,在幻觉任务 HallusionBench 上,我们的方法在 3B 和 7B 上获得了 6.1 和 5.0 的提升。这充分验证了多模态并行推理在视觉感知类任务上的提升。此外,在 Grounding 任务中,相比于原始的 Qwen2.5-VL,我们的方法也获得了一定程度上的提升。这些实验从各个方面验证了我们的方法的有效性。

图二
此外,我们还探讨了不同视觉任务对划分模式的偏好。以计数任务为例,其视觉注意力通常分散于图像各处。若采用块划分,各路径的计算结果可能因区域重叠而产生累积偏差,进而引发幻觉。因此,在此类任务中,我们倾向于使用扫描划分。
从本质上看,块划分方式通过将不同图像区域分配给不同路径,实现了显式的注意力分配;而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式,形成一种隐式的注意力分配机制,最终同样映射为多样化的推理路径。前者体现了从全局到局部的设计思路,后者则仍保留全局视角。

块划分方式可能导致不同推理重复计算
写在最后
Visual Para-Thinker 作为将并行思考框架引入视觉语言领域的初步探索,未来我们计划陆续把并行思考强化学习、多轮思考机制以及基于智能体的强化学习等方法整合进该框架中,从而推动其实现更快速、更优质的扩展。随着 K2.5、Step3-VL 和 LongCat-Flash-Thinking 等基础模型开始关注并行思考这一范式,我们相信这种模式未来将展现出巨大的发展潜力。
作者简介
许浩然,浙江大学硕士。研究领域涵盖多智能体、多模态及强化学习等。他以第一作者或共同第一作者身份在 ICML、ACL、CVPR、AAAI、ICLR 等国际顶级会议上发表了多篇论文。通讯单位为小米 MiLMPlus 团队。通讯作者为李佳泽,现任小米高级算法工程师,研究方向包括多智能体与基于智能体的强化学习。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36220

