Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

近年来,视觉-语言模型在多模态理解任务中取得了显著进展。为了降低推理成本,模型通常通过语言到视觉的注意力来衡量视觉标记与文本之间的相关性,并据此进行视觉标记剪枝。

然而,一个长期被忽视的问题是:注意力本身是否真的能够作为“语义重要性”的可靠指标?

上海大学曾丹团队在最新研究中系统分析了主流视觉-语言模型中注意力的行为模式,发现一个关键却容易被忽略的现象——注意力并非只由语义决定,而是受到显著的结构性偏置影响。如果直接使用这些带偏置的注意力进行视觉标记剪枝,往往会在无意中保留不重要的视觉区域,同时丢失真正有助于任务理解的关键信息。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

Attention的两个核心偏置来源

1. 位置偏置:注意力更偏爱“后面的标记”

通过对大量样本的统计分析,该团队发现语言到视觉的注意力权重,随着视觉标记在序列中位置的靠后而呈现出明显的单调上升趋势。这意味着模型更倾向于关注序列靠后的视觉标记

在图像中,这一现象往往表现为模型对图像下方区域给予更高的注意力,而这种偏好与图像语义本身并无直接关系。

更为严重的是,当注意力被用于视觉标记剪枝时,这种位置偏置会被进一步放大,从而导致剪枝结果系统性地保留“位置靠后但语义无关”的视觉标记。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

2. 填充注意力汇:空白区域为何获得高注意力?

除了位置偏置,研究还观察到另一类更隐蔽的问题:填充区域的注意力异常偏高。在许多视觉-语言模型中,由于输入图像尺寸不一致,填充是不可避免的操作,但这些区域在语义上并不包含任何有用信息。

研究发现,填充对应的视觉标记在注意力计算中经常获得异常大的权重,其根源在于隐藏状态中出现了极端激活值,从而诱发了所谓的注意力汇现象。这会直接误导基于注意力的剪枝策略,使模型错误地保留空白区域。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

核心思路:对Attention本身进行去偏

针对上述问题,研究团队从一个更基础的角度出发:既然注意力本身是有偏的,是否可以先对注意力进行修正?

该团队的核心观察是,注意力中的偏置并非随机噪声,而是呈现出稳定、可建模的整体趋势。因此,研究人员通过对注意力随标记位置变化的整体趋势进行拟合,显式建模其中的位置偏置,并在此基础上对原始注意力进行去偏修正,从而有效削弱与内容无关的位置因素,使注意力更加接近真实的语义相关性。

与此同时,对于填充区域,该团队在剪枝阶段显式抑制其注意力贡献,避免注意力汇对标记排序产生干扰。整个过程不涉及模型结构修改,也不需要重新训练,可在推理阶段直接使用。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

实验结果

在系统实验中,该团队将注意力去偏策略作为即插即用模块,集成到多种主流基于注意力的视觉标记剪枝方法中进行评估。实验覆盖6种剪枝基线方法,在多个主流视觉-语言模型(7B/13B)上进行测试,并验证于10个图像理解任务与3个视频理解任务

实验结果表明,在几乎所有设置下,经过注意力去偏修正后,剪枝模型均取得了稳定的性能提升,且在更激进的标记压缩条件下效果尤为明显。

Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率
Attention机制暗藏偏置陷阱:上海大学团队提出去偏修正公式,提升多模态大模型剪枝效率

结论

研究结果表明,注意力并非天然等价于语义重要性。在视觉-语言模型中,如果忽视注意力中固有的结构性偏置,基于注意力的剪枝策略很容易被误导,从而影响模型整体性能。

通过对注意力进行简单而有效的去偏修正,上海大学曾丹团队在不引入额外训练成本的前提下,显著提升了视觉标记剪枝的可靠性与泛化能力。该工作为多模态模型的高效部署提供了新的视角,也为后续更稳健的注意力机制设计奠定了基础。

论文链接:https://arxiv.org/abs/2508.17807
代码仓库:https://github.com/intcomp/attention-bias

作者:
上海大学、南开大学
Kai Zhao¹, Wubang Yuan¹, Yuchen Lin¹, Liting Ruan¹, Xiaofeng Lu¹, Deng-Ping Fan², Ming-Ming Cheng², Dan Zeng¹
¹上海大学 通信与信息工程学院/计算机工程与科学学院,²南开大学 计算机学院


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19204

(0)
上一篇 2026年1月27日 上午8:43
下一篇 2026年1月27日 上午9:52

相关推荐

  • 从代码补全到任务委托:AI编程助手的技术演进与豆包编程模型的实战突破

    在人工智能技术快速迭代的浪潮中,AI编程助手已成为开发者工作流中不可或缺的组成部分。从最初的简单代码补全到如今能够处理复杂工程任务的智能体,这一领域正经历着深刻的技术范式转移。本文将从技术演进、市场痛点、模型能力三个维度,深入分析当前AI编程助手的发展现状,并以火山引擎豆包编程模型(Doubao-Seed-Code)为案例,探讨其在真实工程场景中的表现与突破…

    2025年11月11日
    42800
  • 国产AI实现空间智能突破:SenseNova-SI超越国际顶尖模型,揭示AI技术范式变革

    空间智能领域迎来里程碑:SenseNova-SI实现全面超越 在空间智能这一前沿研究领域,一项重要进展近日引发行业关注。商汤科技发布的开源模型SenseNova-SI,在多项关键能力评估中超越了李飞飞团队研发的Cambrian-S模型,标志着国产AI技术在该领域取得突破性进展。 从空间感知能力的综合评估数据来看,SenseNova-SI在多个维度上的表现均优…

    2025年12月19日
    42600
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    35600
  • 机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

    都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。 具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。 过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端…

    2026年3月21日
    52000
  • AI智能体上下文工程的减法哲学:Manus五次重构揭示的高效设计原则

    在AI智能体开发领域,一个普遍存在的认知误区是:系统越复杂、功能越丰富、提供给模型的信息越多,其性能就越强大。然而,Hugging Face机器学习工程师Philipp Schmid近期分享的Manus AI案例,却彻底颠覆了这一传统观念。Manus团队在构建AI代理系统时,经历了五次彻底的重构,最终发现了一个反直觉的真理:删除代码往往比添加功能更能提升系统…

    2025年12月5日
    34900