告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

 

当前,测试时扩展范式普遍致力于增加推理长度。然而,已有研究指出,随着推理序列持续增长,以垂直扩展为核心的计算范式容易陷入探索僵化等困境。因此,从另一维度拓展推理宽度显得尤为重要。K2.5、Step3-VL 和 LongCat-Flash-Thinking 等模型已在推理宽度方面进行了有益的尝试。

但在视觉任务中,深度推理仍面临严峻挑战:随着推理序列的延长,模型对视觉特征的注意力被不断稀释,导致“注意力漂移”,从而引发严重的视觉幻觉

为此,我们提出了 Visual Para-Thinker:这是首个面向大规模视觉语言模型并行思考框架,并深入分析了该框架在视觉任务中发挥作用的内在机制。我们将 Pa-Attention(并行注意力机制)和 LPRoPE(分段学习位置编码)机制融入我们的方法中,从而实现了不同推理路径的隔离性、无偏性和可区分性。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

  • 论文标题:Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
  • 论文链接: https://arxiv.org/abs/2602.13310
  • 主页链接: https://github.com/xuhaoran1/Visual-Para-Thinker

并行推理路径:以视觉为中心划分

过往研究提出的并行思考范式,其核心在于通过拓展推理宽度来提升模型性能,基本原则是“保持推理路径的多样性”。我们的 Visual Para-Thinker 同样遵循这一原则。然而,针对视觉语言模型的特性,我们进一步提出了一种以视觉为中心的路径划分方式,并认为其本质在于对视觉 token 注意力的重新分配。由此,我们提出了两种视觉划分的分配模式:块划分和扫描划分。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

块划分:这种策略是根据特定的区域子图来划分推理路径的。在此配置下,每条路径都会吸引独特的视觉注意力分布,这种分布集中在指定的子区域,例如左上角、右上角、左下角或右下角等象限,如图 (a) 所示。

扫描划分:这种方法通过采用不同的视觉扫描轨迹来区分推理路径。具体而言,每条路径代表一种独特的视觉注意力分配,这种分配对应于一个预定义的扫描顺序,例如从左到右、从上到下、从右到左以及从下到上,如图 (b) 所示。

这两种视觉划分方式各有优劣:块划分虽然能够生成不同的子区域,但可能导致不同路径之间的计算冗余;而扫描划分虽结构简洁,却容易削弱路径之间的多样性。为此,我们采用混合训练策略,将两种划分方式生成的数据共同用于模型训练,以实现优势互补。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

块划分方式下不同路径对视觉令牌注意力分配模式的可视化

视觉并行思考框架

基于以上两种视觉路径的划分方式,我们提出了视觉并行思考框架。该框架分为并行思考阶段和总结阶段,并维护了不同并行推理路径的隔离性、无偏性和可区分性。

  • 并行思考阶段:基于共同的上下文,通过视觉划分这一理念,分配不同推理路径的思考方向。
  • 总结阶段:将不同并行推理路径的背景信息进行整合,并综合考虑这些信息以得出最终结论。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

隔离性

为了保证推理路径的隔离性,我们提出了 Path-aware Attention(路径感知注意力)。不同于因果注意力,路径感知注意力通过不同 <think i> 的特殊 token 实现不同路径的上下文隔离范式。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

无偏性

为了保证推理路径的可区分性,过往的做法是将不同路径的 position id 赋予不同的区间,以实现路径之间的可区分性。然而,由于大语言模型的固有偏差,此时不同区间的 position id 存在先后顺序,会出现 loss in the middle 等现象。不同路径的思考权重会存在天生的位置偏差,我们认为这种方法因为不能将不同推理路径等同看待,本质上依然是串行思考。基于以上见解,我们将不同路径的 position id 赋予相同的区间。具体来说,在并行推理阶段,不同路径的起始 token 的 position id 相同。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

而在总结阶段,总结 token 的起始 token 则取最长的推理路径的结束 token 的 position id + 1。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

这使得不同推理路径在 Visual Para-Thinker 模型看来不存在固有的位置偏差,因而保证了无偏性。

可区分性

然而,上述将不同路径的位置编码映射为同一区间的做法仅仅保证了其无偏性,但损伤了不同路径的可区分性。如果直接使用这种位置编码,会导致 Visual Para-Thinker 混淆不同的推理路径,导致最终结果错误。因此,我们提出了 Learnable Parallel Rotary Position Embedding(LPRoPE)。具体来说,我们在不同 token 进行旋转位置编码之前,加入该 token 所属推理路径的可学习位置编码,将旋转位置编码和可学习的绝对位置编码相结合,最终实现路径的可区分性。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

数据与实验

训练配方

我们构建了一个包含 163,000 个问题-答案对的并行推理数据集,数据来源包括 LVIS、LAION、Microsoft COCO、PixMoCount、RefCOCO、RefCOCO+ 和 RefCOCOg 等。

在我们的数据构建框架中,Qwen3-VL-235B-A22BInstruct 充当教师模型。我们通过在温度为 0.1 的条件下实施一种融合了基于块的分区和扫描顺序分区的混合视觉分区策略,为每个样本生成四条以视觉为中心的推理路径。此外,我们还利用高温的 Qwen3-VL-30B-A3B-Instruct 和 InternVL3 5-241B-A28B 来生成更多样化的数据和检查样本。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

图一

实验结果

我们的实验主要在以视觉为中心的视觉感知类任务中进行,包括计数任务(Pixmo、CountBench)、视觉搜索(V)、幻觉任务(MMVP、HallusionBench)及视觉定位(RefCOCO)等多种视觉感知任务。通过开展大量实验,我们验证了所提方法的有效性。如图一所示,我们的方法在 V 任务上分别在 3B 和 7B 上获得了 12.6 和 6.3 的提升。另一方面,在幻觉任务 HallusionBench 上,我们的方法在 3B 和 7B 上获得了 6.1 和 5.0 的提升。这充分验证了多模态并行推理在视觉感知类任务上的提升。此外,在 Grounding 任务中,相比于原始的 Qwen2.5-VL,我们的方法也获得了一定程度上的提升。这些实验从各个方面验证了我们的方法的有效性。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

图二

此外,我们还探讨了不同视觉任务对划分模式的偏好。以计数任务为例,其视觉注意力通常分散于图像各处。若采用块划分,各路径的计算结果可能因区域重叠而产生累积偏差,进而引发幻觉。因此,在此类任务中,我们倾向于使用扫描划分。

从本质上看,块划分方式通过将不同图像区域分配给不同路径,实现了显式的注意力分配;而扫描划分方式则通过改变模型对视觉 token 的注意顺序与方式,形成一种隐式的注意力分配机制,最终同样映射为多样化的推理路径。前者体现了从全局到局部的设计思路,后者则仍保留全局视角。

告别注意力漂移!Visual Para-Thinker:首个视觉并行思考框架,用分治策略攻克视觉幻觉

块划分方式可能导致不同推理重复计算

写在最后

Visual Para-Thinker 作为将并行思考框架引入视觉语言领域的初步探索,未来我们计划陆续把并行思考强化学习、多轮思考机制以及基于智能体的强化学习等方法整合进该框架中,从而推动其实现更快速、更优质的扩展。随着 K2.5、Step3-VL 和 LongCat-Flash-Thinking 等基础模型开始关注并行思考这一范式,我们相信这种模式未来将展现出巨大的发展潜力。

作者简介

许浩然,浙江大学硕士。研究领域涵盖多智能体、多模态及强化学习等。他以第一作者或共同第一作者身份在 ICML、ACL、CVPR、AAAI、ICLR 等国际顶级会议上发表了多篇论文。通讯单位为小米 MiLMPlus 团队。通讯作者为李佳泽,现任小米高级算法工程师,研究方向包括多智能体与基于智能体的强化学习。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36220

(0)
上一篇 2小时前
下一篇 2小时前

相关推荐

  • Unsloth革命:手机端大模型部署实战,40-50 token/s流畅体验揭秘

    想在手机上流畅运行语言模型?过去常常面临速度缓慢或精度严重下降的困境。现在,借助Unsloth发布的完整教程,可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。 其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化,能够充分利用ARM处理器的NEON指令集,并调用手机NP…

    2025年12月21日
    82800
  • 微软Re-TRAC框架:让AI智能体记住失败经验,4B模型性能超越大模型

    想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是这既低效,也需要人工干预。这就是当前大多数深度搜索智能体面临的困境——它们无法「记住」之前的探索经验,每次都是从头开始,导致大量冗余搜索和资源浪费。 现有的深度…

    2026年2月19日
    30700
  • 多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

    研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。 随着多模…

    2026年4月10日
    30200
  • 颠覆AI推理:24人团队打造芯片即模型,每秒17000个token硬刚英伟达

    造芯片的还有高手? 刚刚推出的一款最新芯片,直接冲上硅谷热榜。其峰值推理速度高达每秒 17000个token 。 这是什么概念?当前公认性能强大的Cerebras芯片,速度约为2000 token/s。这意味着新芯片的速度直接快了近 10倍 ,同时成本骤减20倍、功耗降低10倍。 这使大语言模型(LLM)真正进入了 亚毫秒级 的即时响应时代。实机效果如下: …

    2026年2月21日
    84900
  • LightRetriever:颠覆传统!千倍提速的LLM检索架构,将计算负担从查询侧彻底移除

    近年来,大模型文本检索(LLM-based Text Retrieval)技术发展迅猛,主流的LLM Embedding模型参数量普遍在7B以上,在相关性搜索性能提升的同时,也带来了部署成本的大幅增长。 传统的LLM Embedding模型通常采用对称式双塔结构,查询(Query)端和文档(Doc)端共享同一个完整的大语言模型。然而,一个长期被忽视的问题是:…

    2026年2月22日
    32200