Attention机制暗藏偏置陷阱：上海大学团队提出去偏修正公式，提升多模态大模型剪枝效率

2026年1月27日上午9:36 • AI产业动态 • 阅读 183

Attention机制暗藏偏置陷阱：上海大学团队提出去偏修正公式，提升多模态大模型剪枝效率

近年来，视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本，模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性，并据此进行视觉标记剪枝。

然而，一个长期被忽视的问题是：注意力本身是否真的能够作为“语义重要性”的可靠指标？

上海大学曾丹团队在最新研究中系统分析了主流视觉-语言模型中注意力的行为模式，发现一个关键却容易被忽略的现象——注意力并非只由语义决定，而是受到显著的结构性偏置影响。如果直接使用这些带偏置的注意力进行视觉标记剪枝，往往会在无意中保留不重要的视觉区域，同时丢失真正有助于任务理解的关键信息。

Attention的两个核心偏置来源

1. 位置偏置：注意力更偏爱“后面的标记”

通过对大量样本的统计分析，该团队发现语言到视觉的注意力权重，随着视觉标记在序列中位置的靠后而呈现出明显的单调上升趋势。这意味着模型更倾向于关注序列靠后的视觉标记。

在图像中，这一现象往往表现为模型对图像下方区域给予更高的注意力，而这种偏好与图像语义本身并无直接关系。

更为严重的是，当注意力被用于视觉标记剪枝时，这种位置偏置会被进一步放大，从而导致剪枝结果系统性地保留“位置靠后但语义无关”的视觉标记。

2. 填充注意力汇：空白区域为何获得高注意力？

除了位置偏置，研究还观察到另一类更隐蔽的问题：填充区域的注意力异常偏高。在许多视觉-语言模型中，由于输入图像尺寸不一致，填充是不可避免的操作，但这些区域在语义上并不包含任何有用信息。

研究发现，填充对应的视觉标记在注意力计算中经常获得异常大的权重，其根源在于隐藏状态中出现了极端激活值，从而诱发了所谓的注意力汇现象。这会直接误导基于注意力的剪枝策略，使模型错误地保留空白区域。

核心思路：对Attention本身进行去偏

针对上述问题，研究团队从一个更基础的角度出发：既然注意力本身是有偏的，是否可以先对注意力进行修正？

该团队的核心观察是，注意力中的偏置并非随机噪声，而是呈现出稳定、可建模的整体趋势。因此，研究人员通过对注意力随标记位置变化的整体趋势进行拟合，显式建模其中的位置偏置，并在此基础上对原始注意力进行去偏修正，从而有效削弱与内容无关的位置因素，使注意力更加接近真实的语义相关性。

与此同时，对于填充区域，该团队在剪枝阶段显式抑制其注意力贡献，避免注意力汇对标记排序产生干扰。整个过程不涉及模型结构修改，也不需要重新训练，可在推理阶段直接使用。

实验结果

在系统实验中，该团队将注意力去偏策略作为即插即用模块，集成到多种主流基于注意力的视觉标记剪枝方法中进行评估。实验覆盖6种剪枝基线方法，在多个主流视觉-语言模型（7B/13B）上进行测试，并验证于10个图像理解任务与3个视频理解任务。

实验结果表明，在几乎所有设置下，经过注意力去偏修正后，剪枝模型均取得了稳定的性能提升，且在更激进的标记压缩条件下效果尤为明显。

结论

研究结果表明，注意力并非天然等价于语义重要性。在视觉-语言模型中，如果忽视注意力中固有的结构性偏置，基于注意力的剪枝策略很容易被误导，从而影响模型整体性能。

通过对注意力进行简单而有效的去偏修正，上海大学曾丹团队在不引入额外训练成本的前提下，显著提升了视觉标记剪枝的可靠性与泛化能力。该工作为多模态模型的高效部署提供了新的视角，也为后续更稳健的注意力机制设计奠定了基础。

论文链接：https://arxiv.org/abs/2508.17807
代码仓库：https://github.com/intcomp/attention-bias

作者：
上海大学、南开大学
Kai Zhao¹, Wubang Yuan¹, Yuchen Lin¹, Liting Ruan¹, Xiaofeng Lu¹, Deng-Ping Fan², Ming-Ming Cheng², Dan Zeng¹
¹上海大学通信与信息工程学院/计算机工程与科学学院，²南开大学计算机学院

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19204

Attention机制暗藏偏置陷阱：上海大学团队提出去偏修正公式，提升多模态大模型剪枝效率

Attention机制暗藏偏置陷阱：上海大学团队提出去偏修正公式，提升多模态大模型剪枝效率

Attention的两个核心偏置来源

1. 位置偏置：注意力更偏爱“后面的标记”

2. 填充注意力汇：空白区域为何获得高注意力？

核心思路：对Attention本身进行去偏

实验结果

结论

相关推荐

迈向AGI新范式：视频空间超感知如何突破LLM感知瓶颈

2025全球独角兽500强深度解析：AI赛道估值暴涨367.8%，中美双雄主导硬科技新格局

英伟达Rubin架构深度解析：六芯片协同设计如何重塑AI算力基础设施与供应链格局

谷歌AI战略全面开花：千亿美元营收背后的全栈式布局与能源挑战

Kosmos：结构化世界模型驱动的全自动AI科学家，跨学科科研生产力革命