多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

研究发现，多模态大模型的幻觉问题，很多时候并非源于“看错”图像，而是在推理链最不确定的阶段“想偏”。具体而言，模型在生成 because、however、wait 等转折词时，往往处于高熵关键节点，更容易脱离视觉证据，转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能，并注入视觉锚点，有效缓解了这一问题。

随着多模态大模型的发展，具备显式长链推理能力的模型正成为焦点。它们看似更“会思考”，也更擅长处理复杂任务。然而，一个随之而来的问题是：更长的思维链，是否意味着更高的可靠性？

来自蒙纳士大学、佐治亚理工学院、康奈尔大学等机构的研究者给出了否定的答案。他们指出，模型的问题并不总是出在“看错图”，而常常出在推理链进入不确定的转折点之后，开始顺着语言惯性一路“想偏”。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

论文指出，这种“偏航”并非随机噪声，而是与 Token 级别的不确定性紧密相关。尤其当模型生成 because、however、wait 这类带有转折、反思或因果意味的过渡词时，往往对应着更高的 Token 熵值。这意味着模型此时正在多个潜在的推理路径之间摇摆。一旦被迫过早地选定一个离散的 Token，后续整条推理轨迹都可能被带向错误的方向。

幻觉的症结：在转折词后“想偏”

研究首先揭示了一个关键现象：在多模态大模型中，幻觉更容易在转折词之后出现，这类情况占据了全部幻觉的相当大比例。

换言之，模型并非无缘无故地“胡言乱语”，而常常是在“因此”、“但是”、“等等”这些看似标志着高阶推理的信号出现之后，开始脱离图像内容，进入由语言模型主导的“脑补”状态。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

研究并未停留在现象层面，而是将问题与 Token 熵 联系起来。作者发现，这些转折词往往对应更高的熵值，即模型最不确定、最容易在多个语义分支间摇摆的时刻。

于是，核心问题便从“模型会不会产生幻觉”转变为：为何要在模型最不确定的时刻，强迫它立即做出一个离散的决策？

高熵 Token 为何危险？

为了验证高熵节点的关键性，作者进行了 Token 掩码分析。结果显示，掩码掉高熵 Token 对模型最终性能的损害，远大于掩码其他 Token。这表明，高熵 Token 虽然“不确定”，却恰恰是推理过程中的关键决策点。

更有趣的是，这种影响在推理链的前段尤为明显——越早出现的高熵 Token，越可能决定后续整条推理路径的走向。

研究还发现，与幻觉相关的高熵 Token，通常伴随着更低的视觉注意力比例。这意味着，一旦模型进入高不确定状态，它对视觉证据的依赖度反而下降，开始更多地依赖语言上下文进行“续写”。因此，多模态幻觉的关键，不只在于模型“没看图”，更在于它在不确定时“逐渐不再看图”。

LEAD 方法：潜在熵感知解码

基于上述观察，研究者提出了 LEAD 方法。

其核心思想直观而巧妙：当模型处于高熵状态时，不再强迫它立即从概率分布中采样出一个单一的离散 Token，而是使用概率加权的连续 Embedding，在潜在语义空间中同时保留多个候选的推理方向；当熵值下降后，再自然地切换回常规的离散 Token 解码，实现从“探索”到“收敛”的自适应过渡。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

这项工作的另一个亮点在于，它不仅进行了“潜在解码”，还进一步加入了 视觉锚点注入。

作者观察到，高熵阶段往往也是视觉信息最容易被弱化的阶段。因此，LEAD 会在这一阶段注入来自预训练视觉表征的引导向量，持续将模型的注意力拉回图像证据上，避免其在“思考”过程中越走越偏。

这一设计使得 LEAD 与一般的解码技巧不同：它不仅仅是对 Token 分数进行重排，而是在关键的推理节点上，直接改变了模型的表征与决策方式。

效果：不止于减少幻觉

实验部分充分验证了 LEAD 的有效性。该方法在多个通用理解与幻觉评测基准上均带来了稳定的性能提升。

以 R1-Onevision-7B 模型为例，加入 LEAD 后：
* VStar: 66.5 → 71.2
* RealWorldQA: 62.5 → 66.4
* MMEval-Pro: 69.4 → 73.9
* MMHalu 和 Bingo 也分别提升至 3.80 和 3.84。

类似的增益也出现在 Vision-R1、VL-Rethinker、VL-Cogito 和 OpenVLThinker 等不同骨干模型上。

在数学与科学视觉推理任务上，LEAD 同样表现优异。例如在 R1-Onevision-7B 上：
* MathVision: 29.9 → 32.4
* Geometry3K: 57.9 → 61.2
* MMK12-Bio: 40.8 → 44.8

这表明，LEAD 带来的并非某个单一评测基准的偶然提升，而是跨通用理解、数学和科学推理领域的整体增益。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

消融实验

LEAD 的设计并非“玄学调参”。消融实验证明：
1. 动态熵阈值策略 优于始终使用离散解码或始终使用潜在解码的极端设置。
2. 持续窗口 存在一个最佳区间：太短会导致模式频繁切换，太长则会退化为传统思维链的行为模式。
3. 视觉锚点强度 需适中，过强或过弱都无法最佳地平衡图像基础与语言上下文。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

定性分析

论文通过具体样例展示了 LEAD 在视觉注意力分配和 Token 级概率分布上的优势：
* 与基线模型和 MemVR 相比，LEAD 会将更多注意力集中在与问题真正相关的图像区域上。
* 在潜在推理阶段，Token 分布更分散（熵更高）；进入离散推理阶段后，分布会逐步收敛到更确定的输出。这种“先保留多种可能，再在证据约束下收敛”的过程，正是其缓解幻觉的关键。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

更有趣的是，LEAD 不仅更准确，还更“高效”。在 MathVision 任务上，LEAD 在保持最高准确率的同时，平均推理长度反而更短。在 Pass@k 实验中，它也能在更小的 k 值上更快达到性能峰值，说明其拥有更好的样本效率。LEAD 并非依靠“想得更长”取胜，而是靠在关键的不确定节点“少走弯路”。

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

最后，作者使用 PPL 及 GPT-4 评估了输出文本的语法、流畅度和自然度。结果显示，LEAD 在缓解幻觉的同时，并未牺牲文本质量，反而在多个维度上保持了更优或更稳定的表现。这表明，该方法是真正在推理可靠性与生成质量之间取得了更好的平衡。

总而言之，这项研究的启示非常明确：多模态大模型的问题，未必在于不会推理，而在于它在最不确定的时刻，过早地将自己锁定在了一个可能错误的 Token 上。

LEAD 的价值在于，它能够准确识别出“高熵阶段”作为真正的风险区域，并让模型在此阶段先保持语义的多样性，再逐步收敛到确定的输出，同时借助视觉锚点将推理过程重新拉回到图像证据上。对于多模态大模型而言，这种机制可能比单纯地“增加思考步骤”更为关键。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29606

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

幻觉的症结：在转折词后“想偏”

高熵 Token 为何危险？

LEAD 方法：潜在熵感知解码

效果：不止于减少幻觉

消融实验

定性分析

相关推荐

清华&港中文团队提出ColaVLA：自动驾驶推理告别文本，潜空间思维+分层并行规划引领新范式

LENS：首个基于强化推理的分割大模型，突破传统SFT能力天花板

Claude独立攻克图论猜想，算法祖师爷高德纳震惊：AI首次被正式记录在数学研究论文中

英伟达200亿美元豪购Groq：黄仁勋的AI推理野心与LPU芯片的颠覆性革命

FastDriveVLA：专为自动驾驶VLA模型定制的视觉token剪枝方法，实现高效端到端驾驶