研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。
随着多模态大模型的发展,具备显式长链推理能力的模型正成为焦点。它们看似更“会思考”,也更擅长处理复杂任务。然而,一个随之而来的问题是:更长的思维链,是否意味着更高的可靠性?
来自蒙纳士大学、佐治亚理工学院、康奈尔大学等机构的研究者给出了否定的答案。他们指出,模型的问题并不总是出在“看错图”,而常常出在推理链进入不确定的转折点之后,开始顺着语言惯性一路“想偏”。

论文指出,这种“偏航”并非随机噪声,而是与 Token 级别的不确定性紧密相关。尤其当模型生成 because、however、wait 这类带有转折、反思或因果意味的过渡词时,往往对应着更高的 Token 熵值。这意味着模型此时正在多个潜在的推理路径之间摇摆。一旦被迫过早地选定一个离散的 Token,后续整条推理轨迹都可能被带向错误的方向。
幻觉的症结:在转折词后“想偏”
研究首先揭示了一个关键现象:在多模态大模型中,幻觉更容易在转折词之后出现,这类情况占据了全部幻觉的相当大比例。
换言之,模型并非无缘无故地“胡言乱语”,而常常是在“因此”、“但是”、“等等”这些看似标志着高阶推理的信号出现之后,开始脱离图像内容,进入由语言模型主导的“脑补”状态。

研究并未停留在现象层面,而是将问题与 Token 熵 联系起来。作者发现,这些转折词往往对应更高的熵值,即模型最不确定、最容易在多个语义分支间摇摆的时刻。
于是,核心问题便从“模型会不会产生幻觉”转变为:为何要在模型最不确定的时刻,强迫它立即做出一个离散的决策?
高熵 Token 为何危险?
为了验证高熵节点的关键性,作者进行了 Token 掩码分析。结果显示,掩码掉高熵 Token 对模型最终性能的损害,远大于掩码其他 Token。这表明,高熵 Token 虽然“不确定”,却恰恰是推理过程中的关键决策点。
更有趣的是,这种影响在推理链的前段尤为明显——越早出现的高熵 Token,越可能决定后续整条推理路径的走向。
研究还发现,与幻觉相关的高熵 Token,通常伴随着更低的视觉注意力比例。这意味着,一旦模型进入高不确定状态,它对视觉证据的依赖度反而下降,开始更多地依赖语言上下文进行“续写”。因此,多模态幻觉的关键,不只在于模型“没看图”,更在于它在不确定时“逐渐不再看图”。
LEAD 方法:潜在熵感知解码
基于上述观察,研究者提出了 LEAD 方法。
其核心思想直观而巧妙:当模型处于高熵状态时,不再强迫它立即从概率分布中采样出一个单一的离散 Token,而是使用概率加权的连续 Embedding,在潜在语义空间中同时保留多个候选的推理方向;当熵值下降后,再自然地切换回常规的离散 Token 解码,实现从“探索”到“收敛”的自适应过渡。

这项工作的另一个亮点在于,它不仅进行了“潜在解码”,还进一步加入了 视觉锚点注入。
作者观察到,高熵阶段往往也是视觉信息最容易被弱化的阶段。因此,LEAD 会在这一阶段注入来自预训练视觉表征的引导向量,持续将模型的注意力拉回图像证据上,避免其在“思考”过程中越走越偏。
这一设计使得 LEAD 与一般的解码技巧不同:它不仅仅是对 Token 分数进行重排,而是在关键的推理节点上,直接改变了模型的表征与决策方式。
效果:不止于减少幻觉
实验部分充分验证了 LEAD 的有效性。该方法在多个通用理解与幻觉评测基准上均带来了稳定的性能提升。
以 R1-Onevision-7B 模型为例,加入 LEAD 后:
* VStar: 66.5 → 71.2
* RealWorldQA: 62.5 → 66.4
* MMEval-Pro: 69.4 → 73.9
* MMHalu 和 Bingo 也分别提升至 3.80 和 3.84。
类似的增益也出现在 Vision-R1、VL-Rethinker、VL-Cogito 和 OpenVLThinker 等不同骨干模型上。
在数学与科学视觉推理任务上,LEAD 同样表现优异。例如在 R1-Onevision-7B 上:
* MathVision: 29.9 → 32.4
* Geometry3K: 57.9 → 61.2
* MMK12-Bio: 40.8 → 44.8
这表明,LEAD 带来的并非某个单一评测基准的偶然提升,而是跨通用理解、数学和科学推理领域的整体增益。

消融实验
LEAD 的设计并非“玄学调参”。消融实验证明:
1. 动态熵阈值策略 优于始终使用离散解码或始终使用潜在解码的极端设置。
2. 持续窗口 存在一个最佳区间:太短会导致模式频繁切换,太长则会退化为传统思维链的行为模式。
3. 视觉锚点强度 需适中,过强或过弱都无法最佳地平衡图像基础与语言上下文。

定性分析
论文通过具体样例展示了 LEAD 在视觉注意力分配和 Token 级概率分布上的优势:
* 与基线模型和 MemVR 相比,LEAD 会将更多注意力集中在与问题真正相关的图像区域上。
* 在潜在推理阶段,Token 分布更分散(熵更高);进入离散推理阶段后,分布会逐步收敛到更确定的输出。这种“先保留多种可能,再在证据约束下收敛”的过程,正是其缓解幻觉的关键。

更有趣的是,LEAD 不仅更准确,还更“高效”。在 MathVision 任务上,LEAD 在保持最高准确率的同时,平均推理长度反而更短。在 Pass@k 实验中,它也能在更小的 k 值上更快达到性能峰值,说明其拥有更好的样本效率。LEAD 并非依靠“想得更长”取胜,而是靠在关键的不确定节点“少走弯路”。

最后,作者使用 PPL 及 GPT-4 评估了输出文本的语法、流畅度和自然度。结果显示,LEAD 在缓解幻觉的同时,并未牺牲文本质量,反而在多个维度上保持了更优或更稳定的表现。这表明,该方法是真正在推理可靠性与生成质量之间取得了更好的平衡。
总而言之,这项研究的启示非常明确:多模态大模型的问题,未必在于不会推理,而在于它在最不确定的时刻,过早地将自己锁定在了一个可能错误的 Token 上。
LEAD 的价值在于,它能够准确识别出“高熵阶段”作为真正的风险区域,并让模型在此阶段先保持语义的多样性,再逐步收敛到确定的输出,同时借助视觉锚点将推理过程重新拉回到图像证据上。对于多模态大模型而言,这种机制可能比单纯地“增加思考步骤”更为关键。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29606

