Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

近年来,视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本,模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝。

然而,一个长期被忽视的问题是:注意力本身是否真的能够作为“语义重要性”的可靠指标?

上海大学曾丹团队在最新研究中系统分析了主流视觉-语言模型中注意力的行为模式,发现一个关键却容易被忽略的现象——注意力并非只由语义决定,而是受到显著的结构性偏置影响。如果直接使用这些带偏置的注意力进行视觉标记剪枝,往往会在无意中保留不重要的视觉区域,同时丢失真正有助于任务理解的关键信息。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

Attention的两个核心偏置来源

1. 位置偏置:注意力更偏爱“后面的标记”

通过对大量样本的统计分析,该团队发现语言到视觉的注意力权重,随着视觉标记在序列中位置的靠后而呈现出明显的单调上升趋势。这意味着模型更倾向于关注序列靠后的视觉标记

在图像中,这一现象往往表现为模型对图像下方区域给予更高的注意力,而这种偏好与图像语义本身并无直接关系。

更为严重的是,当注意力被用于视觉标记剪枝时,这种位置偏置会被进一步放大,从而导致剪枝结果系统性地保留“位置靠后但语义无关”的视觉标记。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

2. 填充注意力汇:空白区域为何获得高注意力?

除了位置偏置,研究还观察到另一类更隐蔽的问题:填充区域的注意力异常偏高。在许多视觉-语言模型中,由于输入图像尺寸不一致,填充是不可避免的操作,但这些区域在语义上并不包含任何有用信息。

研究发现,填充对应的视觉标记在注意力计算中经常获得异常大的权重,其根源在于隐藏状态中出现了极端激活值,从而诱发了所谓的注意力汇现象。这会直接误导基于注意力的剪枝策略,使模型错误地保留空白区域。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

核心思路:对Attention本身进行去偏

针对上述问题,研究团队从一个更基础的角度出发:既然注意力本身是有偏的,是否可以先对注意力进行修正?

该团队的核心观察是,注意力中的偏置并非随机噪声,而是呈现出稳定、可建模的整体趋势。因此,研究人员通过对注意力随标记位置变化的整体趋势进行拟合,显式建模其中的位置偏置,并在此基础上对原始注意力进行去偏修正,从而有效削弱与内容无关的位置因素,使注意力更加接近真实的语义相关性。

与此同时,对于填充区域,该团队在剪枝阶段显式抑制其注意力贡献,避免注意力汇对标记排序产生干扰。整个过程不涉及模型结构修改,也不需要重新训练,可在推理阶段直接使用。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

实验结果

在系统实验中,该团队将注意力去偏策略作为即插即用模块,集成到多种主流基于注意力的视觉标记剪枝方法中进行评估。实验覆盖6种剪枝基线方法,在多个主流视觉-语言模型(7B/13B)上进行测试,并验证于10个图像理解任务与3个视频理解任务

实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,且在更激进的标记压缩条件下效果尤为明显。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率
Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

结论

研究结果表明,注意力并非天然等价于语义重要性。在视觉-语言模型中,如果忽视注意力中固有的结构性偏置,基于注意力的剪枝策略很容易被误导,从而影响模型整体性能。

通过对注意力进行简单而有效的去偏修正,上海大学曾丹团队在不引入额外训练成本的前提下,显著提升了视觉标记剪枝的可靠性与泛化能力。该工作为多模态模型的高效部署提供了新的视角,也为后续更稳健的注意力机制设计奠定了基础。

论文链接:https://arxiv.org/abs/2508.17807
代码仓库:https://github.com/intcomp/attention-bias

作者:
上海大学、南开大学
Kai Zhao¹, Wubang Yuan¹, Yuchen Lin¹, Liting Ruan¹, Xiaofeng Lu¹, Deng-Ping Fan², Ming-Ming Cheng², Dan Zeng¹
¹上海大学 通信与信息工程学院/计算机工程与科学学院,²南开大学 计算机学院


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19204

(0)
上一篇 2026年1月27日 上午8:43
下一篇 2026年1月27日 上午9:52

相关推荐

  • 迈向AGI新范式:视频空间超感知如何突破LLM感知瓶颈

    在人工智能迈向通用智能(AGI)的漫长征程中,一个根本性的哲学问题日益凸显:在构建超级智能之前,我们首先需要什么?近期,由Yann LeCun、李飞飞和谢赛宁三位顶尖学者联合发表的论文《Cambrian-S:迈向视频中的空间超感知》为这个问题提供了极具启发性的答案。这篇论文不仅标志着多模态研究的重要转向,更可能重新定义AI感知能力的演进路径。 三位作者的组合…

    2025年11月10日
    14800
  • 2025全球独角兽500强深度解析:AI赛道估值暴涨367.8%,中美双雄主导硬科技新格局

    引言:独角兽集群崛起,新质生产力重塑全球产业格局 本文将基于榜单数据,深度解析全球独角兽企业的发展格局、头部企业的核心技术壁垒与产业链布局、中国企业的竞争优势与短板,并预判未来3-5年全球独角兽产业的演化趋势,为政策制定、资本布局与企业战略规划提供参考。 2025年12月3日,2025全球独角兽企业500强大会在青岛市崂山区举办,独角兽工程院联合中国人民大学…

    2026年1月23日
    50600
  • 英伟达Rubin架构深度解析:六芯片协同设计如何重塑AI算力基础设施与供应链格局

    Rubin架构开启AI新纪元:CES 2026的算力革命 2026年1月,拉斯维加斯国际消费电子展(CES 2026)如期而至。作为全球科技产业的“风向标”,本次展会聚焦AI、机器人、智能驾驶等前沿领域,而英伟达CEO黄仁勋长达90分钟的主题演讲,无疑成为整场展会的焦点。 演讲中,黄仁勋正式宣布新一代AI超级计算平台——Vera Rubin(以下简称“Rub…

    AI产业动态 2026年1月20日
    44500
  • 谷歌AI战略全面开花:千亿美元营收背后的全栈式布局与能源挑战

    谷歌2025年第三季度财报的发布,标志着这家科技巨头在人工智能时代迈入了全新的发展阶段。季度营收首次突破千亿美元大关,达到1023亿美元,同比增长16%,净利润349.8亿美元,同比增长33%。这一成绩不仅超越了市场预期,更在市值层面实现了超过3000亿美元的增长,达到3.55万亿美元。 深入分析这份财报,可以发现谷歌的AI战略已经从概念验证阶段全面进入商业…

    2025年10月30日
    17500
  • Kosmos:结构化世界模型驱动的全自动AI科学家,跨学科科研生产力革命

    在人工智能技术不断渗透科研领域的背景下,一款名为Kosmos的AI科学家系统引发了广泛关注。该系统通过结构化世界模型实现了从文献检索、数据分析到论文撰写的全自动化流程,无需人类干预即可完成复杂科研任务。本文将从技术架构、跨学科应用、性能对比及局限性等方面进行深入分析,探讨其对科研范式的潜在影响。 Kosmos的核心创新在于其结构化世界模型,该模型为数据分析与…

    2025年11月6日
    17600