模态跟随
-
多模态大模型决策机制深度解析:从宏观偏好到微观不确定性
多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,在整合视觉、文本等多种信息源方面展现出卓越能力。然而,当不同模态呈现相互冲突的信息时(例如图像显示蓝色汽车而文本描述为红色),模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”,并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷:它忽略…
多模态大语言模型(MLLMs)作为人工智能领域的前沿技术,在整合视觉、文本等多种信息源方面展现出卓越能力。然而,当不同模态呈现相互冲突的信息时(例如图像显示蓝色汽车而文本描述为红色),模型如何做出最终决策成为一个关键科学问题。传统研究通常将模型选择与某一模态保持一致的行为称为“模态跟随”,并通过数据集层面的宏观统计数据来衡量。但这种方法存在根本性缺陷:它忽略…