Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

近年来,视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本,模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝。

然而,一个长期被忽视的问题是:注意力本身是否真的能够作为“语义重要性”的可靠指标?

上海大学曾丹团队在最新研究中系统分析了主流视觉-语言模型中注意力的行为模式,发现一个关键却容易被忽略的现象——注意力并非只由语义决定,而是受到显著的结构性偏置影响。如果直接使用这些带偏置的注意力进行视觉标记剪枝,往往会在无意中保留不重要的视觉区域,同时丢失真正有助于任务理解的关键信息。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

Attention的两个核心偏置来源

1. 位置偏置:注意力更偏爱“后面的标记”

通过对大量样本的统计分析,该团队发现语言到视觉的注意力权重,随着视觉标记在序列中位置的靠后而呈现出明显的单调上升趋势。这意味着模型更倾向于关注序列靠后的视觉标记

在图像中,这一现象往往表现为模型对图像下方区域给予更高的注意力,而这种偏好与图像语义本身并无直接关系。

更为严重的是,当注意力被用于视觉标记剪枝时,这种位置偏置会被进一步放大,从而导致剪枝结果系统性地保留“位置靠后但语义无关”的视觉标记。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

2. 填充注意力汇:空白区域为何获得高注意力?

除了位置偏置,研究还观察到另一类更隐蔽的问题:填充区域的注意力异常偏高。在许多视觉-语言模型中,由于输入图像尺寸不一致,填充是不可避免的操作,但这些区域在语义上并不包含任何有用信息。

研究发现,填充对应的视觉标记在注意力计算中经常获得异常大的权重,其根源在于隐藏状态中出现了极端激活值,从而诱发了所谓的注意力汇现象。这会直接误导基于注意力的剪枝策略,使模型错误地保留空白区域。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

核心思路:对Attention本身进行去偏

针对上述问题,研究团队从一个更基础的角度出发:既然注意力本身是有偏的,是否可以先对注意力进行修正?

该团队的核心观察是,注意力中的偏置并非随机噪声,而是呈现出稳定、可建模的整体趋势。因此,研究人员通过对注意力随标记位置变化的整体趋势进行拟合,显式建模其中的位置偏置,并在此基础上对原始注意力进行去偏修正,从而有效削弱与内容无关的位置因素,使注意力更加接近真实的语义相关性。

与此同时,对于填充区域,该团队在剪枝阶段显式抑制其注意力贡献,避免注意力汇对标记排序产生干扰。整个过程不涉及模型结构修改,也不需要重新训练,可在推理阶段直接使用。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

实验结果

在系统实验中,该团队将注意力去偏策略作为即插即用模块,集成到多种主流基于注意力的视觉标记剪枝方法中进行评估。实验覆盖6种剪枝基线方法,在多个主流视觉-语言模型(7B/13B)上进行测试,并验证于10个图像理解任务与3个视频理解任务

实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,且在更激进的标记压缩条件下效果尤为明显。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率
Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

结论

研究结果表明,注意力并非天然等价于语义重要性。在视觉-语言模型中,如果忽视注意力中固有的结构性偏置,基于注意力的剪枝策略很容易被误导,从而影响模型整体性能。

通过对注意力进行简单而有效的去偏修正,上海大学曾丹团队在不引入额外训练成本的前提下,显著提升了视觉标记剪枝的可靠性与泛化能力。该工作为多模态模型的高效部署提供了新的视角,也为后续更稳健的注意力机制设计奠定了基础。

论文链接:https://arxiv.org/abs/2508.17807
代码仓库:https://github.com/intcomp/attention-bias

作者:
上海大学、南开大学
Kai Zhao¹, Wubang Yuan¹, Yuchen Lin¹, Liting Ruan¹, Xiaofeng Lu¹, Deng-Ping Fan², Ming-Ming Cheng², Dan Zeng¹
¹上海大学 通信与信息工程学院/计算机工程与科学学院,²南开大学 计算机学院


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19204

(0)
上一篇 2026年1月27日 上午8:43
下一篇 2026年1月27日 上午9:52

相关推荐

  • Voyager:基于HLS的端到端DNN加速器设计框架,实现56%面积优化与61%延迟降低

    关键词:Voyager、 DNN Accelerator 、High-Level Synthesis 、Design-Space Exploration 、Quantization 近年来,深度学习模型在计算机视觉、自然语言处理等领域取得了巨大成功,但其庞大的计算量和内存需求对硬件提出了极高要求。传统的通用处理器难以高效运行这些模型,因此设计专用硬件加速器成…

    2026年1月31日
    14400
  • Qwen3.5震撼发布:3970亿参数性能超万亿模型,推理吞吐量提升19倍,开源AI新标杆诞生

    智东西2月16日报道,刚刚,Qwen3.5正式发布并开源,在多模态理解、复杂推理、编程、Agent智能体等几大能力上领先同级开源模型,多项基准测试成绩媲美甚至超越GPT-5.2、Gemini 3 Pro等闭源第一梯队模型。 Qwen3.5-Plus总参数为3970亿,激活参数仅170亿,其性能超越了万亿参数的Qwen3-Max模型。在部署上,其显存占用降低了…

    2026年2月16日
    17800
  • 从金融深水区到产业级应用:蚂蚁数科Agentar-SQL开源背后的AI方法论

    近日,蚂蚁数科在第二届CCF中国数据大会上正式宣布开源其数据智能体关键技术——Agentar-SQL系列,这一举动在AI数据分析领域引发广泛关注。此次开源不仅包含实时文本转SQL(Text-to-SQL)框架的全套论文、代码、模型和使用指南,更标志着中国AI企业在核心技术开放共享方面迈出重要一步。 要理解这一开源事件的意义,必须从技术实力和市场表现两个维度深…

    2025年12月14日
    25700
  • 春晚舞台上演机器人功夫秀:宇树科技全自主集群控制技术全球首秀

    这已经是宇树机器人第三次亮相春晚,却带来了前所未有的震撼。 在今年的央视春节联欢晚会上,全球领先的宇树科技将舞台变成了新技术的展示场。一群活力十足的人形机器人上演了一出武术表演《武 BOT》,全程镜头连贯,几乎没有切换。 表演中的人形机器人型号包括现象级的 G1 以及刚刚发布的 H2。它们在快速奔跑中完成了穿插变阵和复杂的武术动作。这种高动态、高协同的全自主…

    2026年2月19日
    8300
  • 多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

    在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模…

    2025年11月28日
    15300