多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,在整合视觉、文本等多种信息源方面展现出卓越能力。然而,当不同模态呈现相互冲突的信息时(例如图像显示蓝色汽车而文本描述为红色),模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”,并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷:它忽略了模型在处理具体案例时对每个模态的“置信度”差异,从而混淆了模型的实际能力与内在偏好。
本文的核心观点在于,模态跟随并非静态属性,而是一个由两个深层因素动态交互决定的过程:
第一,相对推理不确定性(Relative Reasoning Uncertainty)。这是指在单个具体案例中,模型对文本推理和视觉推理的置信度差距。当模型对某一模态的推理具有高度确定性时,它更可能跟随该模态;反之,当模型对两种模态都感到不确定时,其决策过程将更加复杂。这种不确定性可以通过输出熵来量化——低熵值表示模型对预测结果高度自信,而高熵值则反映模型在多个可能答案间犹豫不决。
第二,固有模态偏好(Inherent Modality Preference)。这是指当模型感知到两种模态的推理难度相当时,其内在的、稳定的偏向性。这种偏好可能源于模型架构设计、训练数据分布或优化目标等因素,是模型的一种本质特性。

为了系统研究这两个因素,研究团队构建了一个创新的可控数据集。该数据集的核心设计在于能够独立调整视觉难度和文本难度两个维度:
– 视觉难度通过图像中物体的清晰度、遮挡程度、背景干扰等因素控制。低难度图像可能呈现清晰独立的红色方块,而高难度图像则可能将目标物体置于复杂视觉场景中。
– 文本难度通过语言表达的复杂性来调节。低难度文本可能直接陈述“方块是蓝色的”,而高难度文本则需要多步关系推理,如“方块的颜色与蓝闪蝶翅膀相同”。
这种设计使得研究者能够创建不同难度组合的多模态输入,从而精确控制相对不确定性。

在不确定性度量方面,研究采用输出熵作为模型感知不确定性的代理指标。分析显示,熵值随着设计难度的增加而一致上升,验证了该指标的有效性。相对不确定性则通过归一化的文本熵与视觉熵差异来计算,负值表示模型对文本更自信,正值表示对视觉更自信。

研究团队在LLaVA和Qwen-VL系列等6个主流MLLM上进行了实证分析,发现了传统宏观指标的严重局限性:
首先,当观察精细化的相对不确定性分布时,大多数模型在该数据集上都感知到文本模态更容易处理(不确定性更低)。然而,这些模型在宏观指标上的表现却截然相反:LLaVA系列呈现出强烈的文本跟随倾向,而Qwen2.5-VL却显著跟随视觉。这表明宏观统计数据无法解释模型的实际决策机制。
其次,对比Qwen2-VL和Qwen2.5-VL发现,两者在宏观指标上都表现出视觉跟随倾向,但它们感知的相对不确定性分布完全不同。Qwen2-VL面临更多“视觉更容易”的情况,其行为似乎符合“选择更简单选项”的直观解释;而Qwen2.5-VL却在文本更简单的情况下依然选择视觉,这揭示了固有偏好的存在。
这些矛盾表明,宏观指标的结果可能受到数据集难度偏向和模型特定能力共同作用产生的“数据集伪影”影响,而非真实反映模型的决策本质。
研究的重要贡献在于提出了一个全新框架,将模态跟随这一外显行为分解为相对推理不确定性和固有模态偏好两个核心组成部分。这一框架成功地将模型的单模态能力(反映为不确定性)与其内在偏见(固有偏好)解耦。实证研究发现了一个基本规律:模型跟随某一模态的概率,会随着该模态相对推理不确定性的增加而单调递减。
基于这一规律,研究者提出了一种更合理的固有偏好量化方法:将模型偏好定义为单调曲线上的“平衡点”——即模型对两种模态同等看待(50%跟随概率)时所需的相对不确定性补偿值。这种方法成功地将固有偏好从数据集伪影和单模态能力中分离出来,为模型评估提供了更科学的基准。
进一步的研究深入探究了模型内部的决策机制。发现在“模糊区域”(即相对不确定性接近模型的平衡点)时,模型的逐层预测会在两种冲突答案之间表现出强烈的“振荡”。这种内部的犹豫不决,为模型在外部观察到的平均化选择行为提供了机制性解释,揭示了MLLM决策过程的动态性和复杂性。
这项研究由北京大学、华南理工大学、佐治亚大学、KAUST和MBZUAI的跨机构团队合作完成,第一作者为北京大学博士生张卓然,通讯作者为KAUST王帝老师和MBZUAI胡丽杰老师。他们的工作不仅深化了我们对多模态大模型决策机制的理解,还为未来模型设计、评估和优化提供了重要理论框架和实践指导。
— 图片补充 —







关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7412
