视觉锚点
-
多模态大模型幻觉真相:转折词后最易“想偏”,新方法LEAD用潜在熵解码破解难题
研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。 随着多模…
研究发现,多模态大模型的幻觉问题,很多时候并非源于“看错”图像,而是在推理链最不确定的阶段“想偏”。具体而言,模型在生成 because、however、wait 等转折词时,往往处于高熵关键节点,更容易脱离视觉证据,转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能,并注入视觉锚点,有效缓解了这一问题。 随着多模…