OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

随着多模态大模型向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而,这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token,其中大量是冗余信息。注意力可视化实验揭示,在多模态推理过程中,仅有少量Token获得高注意力权重,大部分计算资源被消耗在冗余信息上。

针对音视频全模态场景下的计算瓶颈,快手可灵团队、中科院自动化所和南京大学的研究者提出了 OmniSIFT——一种模态非对称Token压缩框架。其核心洞察在于:视频信息远比音频密集,因此可以让视频“带着”音频走。该方法通过时空联合剪枝压缩视频Token,再用筛选后的视觉特征引导音频Token的选择,从而在保留关键语义的同时,剔除大量重复画面或无关声音。

实验结果显示,仅保留35%的多模态Token,模型性能不仅未下降,部分基准上甚至超过全量输入。 同时,推理时间减少42%,GPU显存占用同步下降。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

全模态的计算挑战与现有方案的局限

尽管已有一些视觉Token压缩方法,但在“音频+视频”的全模态场景下仍面临挑战。视频包含大量空间与时间冗余,而音频对时间连续性高度敏感。更复杂的是,两种模态间存在紧密的语义关联,简单的统一压缩策略易破坏关键线索。

OmniSIFT从 模态冗余结构本身 出发,提出非对称压缩策略,旨在解决音视频信息量极度不对称、冗余度极高的问题。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

OmniSIFT:模态非对称的Token压缩框架

OmniSIFT的核心思想是利用音视频之间的 非对称依赖关系:先通过视频信息找到关键视觉线索,再据此筛选最相关的音频Token。该框架由时空视频剪枝模块(STVP)视觉引导音频选择模块(VGAS) 协同工作,在大幅压缩序列长度的同时保留关键语义信息。

如图2所示,在“比分从27–26变为28–26时发生了什么?”的案例中,OmniSIFT能保留比分牌变化的关键视觉线索及相关音频,从而正确推断原因。而传统压缩方法易丢失此类信息,导致模型理解错误。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

1. STVP:时空联合剪枝压缩视频

视频Token在多模态输入中占绝大多数。STVP模块从空间和时间两个维度识别冗余:

  • 帧内剪枝:在单帧内部识别背景区域或重复纹理,仅保留具有语义价值的视觉特征。
  • 帧间剪枝:分析连续帧间的视觉相似度,当相邻帧变化较小时,自动丢弃重复帧以减少时间冗余。

通过交替进行帧内与帧间剪枝,STVP能在保证视觉语义完整性的同时,大幅压缩视频Token数量。

2. VGAS:视觉引导的音频选择

音频对时间连续性敏感,简单丢弃Token易破坏语义。VGAS模块利用筛选后的视觉特征,通过跨模态注意力机制评估每个音频Token的重要性。

与当前视觉内容高度相关的音频片段(如说话声、碰撞声)被优先保留,无关背景音则被过滤。为使离散的Token选择过程可参与训练,研究者引入了Straight-Through Estimator(STE),实现端到端的可微优化。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

实验结果:极致压缩下的性能与效率

研究团队在Qwen2.5-Omni-7B和Qwen2.5-Omni-3B上进行了系统评测,覆盖OmniVideoBench、DailyOmni、WorldSense等多个音视频理解基准。

性能表现:35% Token保留率下的“无损”效果

实验揭示了一个有趣现象:在多模态推理中,超过65%的Token实际上是冗余的。如表所示,在仅保留35% Token的情况下,OmniSIFT在多个任务上保持甚至超过了全量输入模型的表现。例如,在WorldSense基准上,OmniSIFT在Qwen2.5-Omni-7B上取得了50.0的成绩,高于全量基线模型的49.7

在更严格的25% Token保留率下,OmniSIFT性能依然稳定,整体优于OmniZip、DyCoke等对比方法。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

消融实验:验证“视觉引导”的必要性

消融实验分析了各模块的作用:
* 移除STVP的空间或时间剪枝模块,模型性能均明显下降,说明需同时建模空间与时间冗余。
* 将视觉引导的音频选择(VGAS) 替换为音频自身的注意力剪枝时,DailyOmni上的得分从73.2降至69.3。这证明在全模态理解中,视觉线索能显著帮助识别重要音频信息

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

效率提升:推理时间减少42%

由于Token数量大幅减少,模型计算开销显著降低。在35% Token保留率下,OmniSIFT在Qwen2.5-Omni-7B上将总推理时间从15097秒降低至8756秒,减少约42%,GPU显存占用同步下降,而模型准确率保持稳定甚至略有提升。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

总结

OmniSIFT通过模态非对称的Token压缩策略,在极高压缩率下保持了模型性能,并显著降低了推理开销。这为全模态大模型在实时交互和端侧部署等场景中的应用提供了新的可能性。

OmniSIFT 通过其模态非对称的 Token 压缩策略,在仅保留少量关键 Token 的情况下,依然保持了强大的多模态理解能力,为全模态模型的高效推理提供了新思路。这一工作揭示了一个深刻的洞见:决定模型理解能力的关键并非 Token 的数量,而是信息的密度。

论文信息
标题: OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
作者机构: 中科院自动化所,快手可灵,南京大学等
论文链接: https://arxiv.org/abs/2602.04804

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25216

(0)
上一篇 13小时前
下一篇 13小时前

相关推荐

  • OpenAI重磅升级:Responses API引入WebSocket模式,复杂任务性能提升40%

    OpenAI 发布了一项针对长时间运行、大量工具调用场景的重要更新:Responses API 现已支持 WebSocket 模式。 此功能专为需要频繁进行模型-工具交互的工作流设计,例如代码自动化或需要反复调用工具的智能体编排任务。 核心改进:从对话到关系 核心改进在于连接方式的转变。在传统的 HTTP 模式下,每次交互都需要重新发送完整的上下文,如同每次…

    2026年2月24日
    19400
  • AI攻克CUDA黑魔法!字节清华联手打造CUDA Agent,智能体强化学习实现内核生成性能飞跃

    关键词: CUDA 内核生成、智能体强化学习、性能优化、KernelBench、技能增强环境 在深度学习基础设施的底层,存在着一个被称为“黑魔法”的领域——CUDA 内核开发。当我们在 PyTorch 中写下几行简洁的代码时,很少有人意识到,这些高层操作最终会被编译成成百上千个在 NVIDIA GPU 上执行的底层内核程序。这些内核程序的编写和优化,直接决定…

    2026年3月3日
    7600
  • 揭秘16层架构:如何构建成本优化、全链路可观测的生产级知识图谱系统Agentic GraphOS

    面向企业生产的、成本优化且全链路可观测的 GraphRAG 操作系统 Agentic GraphOS | 生产可用 · 多智能体 · 思维速度级扩展 本文将从零开始,完整介绍如何构建一套可投入生产的知识图谱系统——GraphOS。你将了解如何架构一个多智能体平台,智能地将查询路由到最具性价比的检索策略,在保持研究级准确率的同时实现 30–50% 的成本优化。…

    2026年1月8日
    17100
  • Python仪表盘开发利器:7款高效工具助你轻松构建数据可视化应用

    构建仪表盘是数据驱动应用开发中的常见需求,无论是用于系统监控、业务分析还是成果展示。然而,选择合适的工具至关重要——一些工具性能不佳,一些将简单的可视化复杂化,另一些则因模板僵化而限制了灵活性。 幸运的是,Python 生态提供了多样化的选择,无论你倾向于通过代码实现精细控制,还是希望通过低代码方式快速搭建,都能找到合适的方案。 1. Dash Dash 是…

    2025年12月7日
    20500
  • DeepSeek开源条件记忆模块:让Transformer告别“苦力活”,27B模型性能碾压MoE

    DeepSeek为Transformer引入“条件记忆”模块 DeepSeek在最新研究中为Transformer架构引入了“条件记忆”机制,旨在弥补其原生缺乏高效知识检索能力的短板。 研究团队在论文结论中明确指出:条件记忆应被视为下一代稀疏模型不可或缺的核心建模原语。 该研究由梁文锋署名,并与北京大学王选计算机研究所的赵东岩、张辉帅团队合作完成。 论文不仅…

    2026年1月13日
    22400