多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 becausehoweverwait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。

随着多模态大模型的发展,具备显式长链推理能力的模型正成为焦点。它们看似更“会思考”,也更擅长处理复杂任务。然而,一个随之而来的问题是:更长的思维链,是否意味着更高的可靠性?

来自蒙纳士大学、佐治亚理工学院、康奈尔大学等机构的研究者给出了否定的答案。他们指出,模型的问题并不总是出在“看错图”,而常常出在推理链进入不确定的转折点之后,开始顺着语言惯性一路“想偏”。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

论文指出,这种“偏航”并非随机噪声,而是与 Token 级别的不确定性紧密相关。尤其当模型生成 becausehoweverwait 这类带有转折、反思或因果意味的过渡词时,往往对应着更高的 Token 熵值。这意味着模型此时正在多个潜在的推理路径之间摇摆。一旦被迫过早地选定一个离散的 Token,后续整条推理轨迹都可能被带向错误的方向。

幻觉的症结:在转折词后“想偏”

研究首先揭示了一个关键现象:在多模态大模型中,幻觉更容易在转折词之后出现,这类情况占据了全部幻觉的相当大比例。

换言之,模型并非无缘无故地“胡言乱语”,而常常是在“因此”、“但是”、“等等”这些看似标志着高阶推理的信号出现之后,开始脱离图像内容,进入由语言模型主导的“脑补”状态。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

研究并未停留在现象层面,而是将问题与 Token 熵 联系起来。作者发现,这些转折词往往对应更高的熵值,即模型最不确定、最容易在多个语义分支间摇摆的时刻。

于是,核心问题便从“模型会不会产生幻觉”转变为:为何要在模型最不确定的时刻,强迫它立即做出一个离散的决策?

高熵 Token 为何危险?

为了验证高熵节点的关键性,作者进行了 Token 掩码分析。结果显示,掩码掉高熵 Token 对模型最终性能的损害,远大于掩码其他 Token。这表明,高熵 Token 虽然“不确定”,却恰恰是推理过程中的关键决策点。

更有趣的是,这种影响在推理链的前段尤为明显——越早出现的高熵 Token,越可能决定后续整条推理路径的走向。

研究还发现,与幻觉相关的高熵 Token,通常伴随着更低的视觉注意力比例。这意味着,一旦模型进入高不确定状态,它对视觉证据的依赖度反而下降,开始更多地依赖语言上下文进行“续写”。因此,多模态幻觉的关键,不只在于模型“没看图”,更在于它在不确定时“逐渐不再看图”。

LEAD 方法:潜在熵感知解码

基于上述观察,研究者提出了 LEAD 方法。

其核心思想直观而巧妙:当模型处于高熵状态时,不再强迫它立即从概率分布中采样出一个单一的离散 Token,而是使用概率加权的连续 Embedding,在潜在语义空间中同时保留多个候选的推理方向;当熵值下降后,再自然地切换回常规的离散 Token 解码,实现从“探索”到“收敛”的自适应过渡。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

这项工作的另一个亮点在于,它不仅进行了“潜在解码”,还进一步加入了 视觉锚点注入

作者观察到,高熵阶段往往也是视觉信息最容易被弱化的阶段。因此,LEAD 会在这一阶段注入来自预训练视觉表征的引导向量,持续将模型的注意力拉回图像证据上,避免其在“思考”过程中越走越偏。

这一设计使得 LEAD 与一般的解码技巧不同:它不仅仅是对 Token 分数进行重排,而是在关键的推理节点上,直接改变了模型的表征与决策方式。

效果:不止于减少幻觉

实验部分充分验证了 LEAD 的有效性。该方法在多个通用理解与幻觉评测基准上均带来了稳定的性能提升。

以 R1-Onevision-7B 模型为例,加入 LEAD 后:
* VStar: 66.5 → 71.2
* RealWorldQA: 62.5 → 66.4
* MMEval-Pro: 69.4 → 73.9
* MMHalu 和 Bingo 也分别提升至 3.80 和 3.84。

类似的增益也出现在 Vision-R1、VL-Rethinker、VL-Cogito 和 OpenVLThinker 等不同骨干模型上。

在数学与科学视觉推理任务上,LEAD 同样表现优异。例如在 R1-Onevision-7B 上:
* MathVision: 29.9 → 32.4
* Geometry3K: 57.9 → 61.2
* MMK12-Bio: 40.8 → 44.8

这表明,LEAD 带来的并非某个单一评测基准的偶然提升,而是跨通用理解、数学和科学推理领域的整体增益。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

消融实验

LEAD 的设计并非“玄学调参”。消融实验证明:
1. 动态熵阈值策略 优于始终使用离散解码或始终使用潜在解码的极端设置。
2. 持续窗口 存在一个最佳区间:太短会导致模式频繁切换,太长则会退化为传统思维链的行为模式。
3. 视觉锚点强度 需适中,过强或过弱都无法最佳地平衡图像基础与语言上下文。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

定性分析

论文通过具体样例展示了 LEAD 在视觉注意力分配和 Token 级概率分布上的优势:
* 与基线模型和 MemVR 相比,LEAD 会将更多注意力集中在与问题真正相关的图像区域上。
* 在潜在推理阶段,Token 分布更分散(熵更高);进入离散推理阶段后,分布会逐步收敛到更确定的输出。这种“先保留多种可能,再在证据约束下收敛”的过程,正是其缓解幻觉的关键。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

更有趣的是,LEAD 不仅更准确,还更“高效”。在 MathVision 任务上,LEAD 在保持最高准确率的同时,平均推理长度反而更短。在 Pass@k 实验中,它也能在更小的 k 值上更快达到性能峰值,说明其拥有更好的样本效率。LEAD 并非依靠“想得更长”取胜,而是靠在关键的不确定节点“少走弯路”。

多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题

最后,作者使用 PPL 及 GPT-4 评估了输出文本的语法、流畅度和自然度。结果显示,LEAD 在缓解幻觉的同时,并未牺牲文本质量,反而在多个维度上保持了更优或更稳定的表现。这表明,该方法是真正在推理可靠性与生成质量之间取得了更好的平衡。

总而言之,这项研究的启示非常明确:多模态大模型的问题,未必在于不会推理,而在于它在最不确定的时刻,过早地将自己锁定在了一个可能错误的 Token 上。

LEAD 的价值在于,它能够准确识别出“高熵阶段”作为真正的风险区域,并让模型在此阶段先保持语义的多样性,再逐步收敛到确定的输出,同时借助视觉锚点将推理过程重新拉回到图像证据上。对于多模态大模型而言,这种机制可能比单纯地“增加思考步骤”更为关键。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29606

(0)
上一篇 2026年4月10日 下午1:34
下一篇 2026年4月10日 下午1:40

相关推荐

  • HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

    随着多模态大语言模型(MLLM)支持的上下文长度不断增长,高分辨率图像和长视频输入会产生远多于文本的视觉标记(Token)。在自注意力机制二次计算复杂度的制约下,这些海量视觉Token迅速成为模型推理效率的瓶颈。 现有研究通常采用渐进式剪枝来减少视觉Token,但大多采用固定的剪枝策略,未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。 通过对MLL…

    2026年3月23日
    37100
  • 推理成本突破1元/百万token:浪潮信息元脑HC1000如何重塑AI产业竞争格局

    当前全球AI产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本” 不再是可选优化项,而是决定AI企业能否盈利、行业能否突破的核心命脉。 在此大背景下,浪潮信息推出元脑HC1000超扩展AI服务器 ,将推理成本首次击穿至1元/每百万token 。 这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑AI产业竞争的底层逻辑。 浪…

    2025年12月26日
    48800
  • Fleet:多芯粒GPU时代的新编程范式,破解大模型推理效率瓶颈

    一、架构断裂:当“单片思维”撞上“芯粒现实” 现代GPU架构已转向基于芯粒(Chiplet)的多芯片设计,例如AMD Instinct MI300X/MI350和NVIDIA Blackwell。然而,主流的CUDA/HIP执行模型并未完全适应这一根本性的架构变迁。一个核心痛点是:编程模型缺乏直接的方法来表达工作组群之间的数据亲和性,或将计算任务限定到特定芯…

    2026年4月21日
    33000
  • 谷歌Aletheia创FirstProof数学挑战新纪录:AI自主解决6道高难度研究问题,超越IMO金牌表现

    去年七月,国际数学奥林匹克竞赛(IMO)见证了人工智能系统首次达到金牌水平。当时,OpenAI与谷歌DeepMind相继宣布其AI模型在此类测试中取得优异成绩,其中DeepMind的Gemini模型更是首个获得IMO官方金牌认证的AI系统。 然而,竞赛解题与真正的数学研究之间,仍存在显著差异。 此后,AI智能体技术飞速发展,其解决数学问题的能力不再仅仅依赖于…

    2026年2月26日
    45600
  • 3D堆叠+全栈协同:DeepStack如何让LLM推理吞吐飙升9.5倍?

    DeepStack 的核心成果在于,它通过将 3D 堆叠内存的底层特性与全并行策略在早期设计阶段深度融合,实现了高达 9.5 倍的推理吞吐量提升。 该框架的主要贡献是一套兼具高精度与高效率的全栈设计空间探索(DSE)方法论。DeepStack 首次将利特尔法则约束、事务感知带宽模型、Bank 冲突分析、热功耗 DVFS 反馈、全部七种并行策略、双阶段网络抽象…

    大模型推理 2026年4月28日
    21000