视觉锚点

大模型推理

多模态大模型幻觉真相：转折词后最易“想偏”，新方法LEAD用潜在熵解码破解难题

研究发现，多模态大模型的幻觉问题，很多时候并非源于“看错”图像，而是在推理链最不确定的阶段“想偏”。具体而言，模型在生成 because、however、wait 等转折词时，往往处于高熵关键节点，更容易脱离视觉证据，转向语言先验的“脑补”。新方法 LEAD 通过在高熵阶段进行潜在语义空间解码、保留多种推理可能，并注入视觉锚点，有效缓解了这一问题。随着多模…

9小时前
39000