OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

随着多模态大模型向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而,这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token,其中大量是冗余信息。注意力可视化实验揭示,在多模态推理过程中,仅有少量Token获得高注意力权重,大部分计算资源被消耗在冗余信息上。

针对音视频全模态场景下的计算瓶颈,快手可灵团队、中科院自动化所和南京大学的研究者提出了 OmniSIFT——一种模态非对称Token压缩框架。其核心洞察在于:视频信息远比音频密集,因此可以让视频“带着”音频走。该方法通过时空联合剪枝压缩视频Token,再用筛选后的视觉特征引导音频Token的选择,从而在保留关键语义的同时,剔除大量重复画面或无关声音。

实验结果显示,仅保留35%的多模态Token,模型性能不仅未下降,部分基准上甚至超过全量输入。 同时,推理时间减少42%,GPU显存占用同步下降。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

全模态的计算挑战与现有方案的局限

尽管已有一些视觉Token压缩方法,但在“音频+视频”的全模态场景下仍面临挑战。视频包含大量空间与时间冗余,而音频对时间连续性高度敏感。更复杂的是,两种模态间存在紧密的语义关联,简单的统一压缩策略易破坏关键线索。

OmniSIFT从 模态冗余结构本身 出发,提出非对称压缩策略,旨在解决音视频信息量极度不对称、冗余度极高的问题。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

OmniSIFT:模态非对称的Token压缩框架

OmniSIFT的核心思想是利用音视频之间的 非对称依赖关系:先通过视频信息找到关键视觉线索,再据此筛选最相关的音频Token。该框架由时空视频剪枝模块(STVP)视觉引导音频选择模块(VGAS) 协同工作,在大幅压缩序列长度的同时保留关键语义信息。

如图2所示,在“比分从27–26变为28–26时发生了什么?”的案例中,OmniSIFT能保留比分牌变化的关键视觉线索及相关音频,从而正确推断原因。而传统压缩方法易丢失此类信息,导致模型理解错误。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

1. STVP:时空联合剪枝压缩视频

视频Token在多模态输入中占绝大多数。STVP模块从空间和时间两个维度识别冗余:

  • 帧内剪枝:在单帧内部识别背景区域或重复纹理,仅保留具有语义价值的视觉特征。
  • 帧间剪枝:分析连续帧间的视觉相似度,当相邻帧变化较小时,自动丢弃重复帧以减少时间冗余。

通过交替进行帧内与帧间剪枝,STVP能在保证视觉语义完整性的同时,大幅压缩视频Token数量。

2. VGAS:视觉引导的音频选择

音频对时间连续性敏感,简单丢弃Token易破坏语义。VGAS模块利用筛选后的视觉特征,通过跨模态注意力机制评估每个音频Token的重要性。

与当前视觉内容高度相关的音频片段(如说话声、碰撞声)被优先保留,无关背景音则被过滤。为使离散的Token选择过程可参与训练,研究者引入了Straight-Through Estimator(STE),实现端到端的可微优化。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

实验结果:极致压缩下的性能与效率

研究团队在Qwen2.5-Omni-7B和Qwen2.5-Omni-3B上进行了系统评测,覆盖OmniVideoBench、DailyOmni、WorldSense等多个音视频理解基准。

性能表现:35% Token保留率下的“无损”效果

实验揭示了一个有趣现象:在多模态推理中,超过65%的Token实际上是冗余的。如表所示,在仅保留35% Token的情况下,OmniSIFT在多个任务上保持甚至超过了全量输入模型的表现。例如,在WorldSense基准上,OmniSIFT在Qwen2.5-Omni-7B上取得了50.0的成绩,高于全量基线模型的49.7

在更严格的25% Token保留率下,OmniSIFT性能依然稳定,整体优于OmniZip、DyCoke等对比方法。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

消融实验:验证“视觉引导”的必要性

消融实验分析了各模块的作用:
* 移除STVP的空间或时间剪枝模块,模型性能均明显下降,说明需同时建模空间与时间冗余。
* 将视觉引导的音频选择(VGAS) 替换为音频自身的注意力剪枝时,DailyOmni上的得分从73.2降至69.3。这证明在全模态理解中,视觉线索能显著帮助识别重要音频信息

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

效率提升:推理时间减少42%

由于Token数量大幅减少,模型计算开销显著降低。在35% Token保留率下,OmniSIFT在Qwen2.5-Omni-7B上将总推理时间从15097秒降低至8756秒,减少约42%,GPU显存占用同步下降,而模型准确率保持稳定甚至略有提升。

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%

总结

OmniSIFT通过模态非对称的Token压缩策略,在极高压缩率下保持了模型性能,并显著降低了推理开销。这为全模态大模型在实时交互和端侧部署等场景中的应用提供了新的可能性。

OmniSIFT 通过其模态非对称的 Token 压缩策略,在仅保留少量关键 Token 的情况下,依然保持了强大的多模态理解能力,为全模态模型的高效推理提供了新思路。这一工作揭示了一个深刻的洞见:决定模型理解能力的关键并非 Token 的数量,而是信息的密度。

论文信息
标题: OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
作者机构: 中科院自动化所,快手可灵,南京大学等
论文链接: https://arxiv.org/abs/2602.04804

OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25216

(0)
上一篇 2026年3月11日 上午10:54
下一篇 2026年3月11日 上午10:55

相关推荐

  • Ollama Launch 实测:一键启动 Claude Code、Codex 与 OpenCode,告别繁琐配置

    忘掉配置的烦恼吧,Ollama Launch 是启动 Claude Code、Codex、OpenCode、Moltbot 或任意其他 CLI 工具的全新简易方式。 Ollama v0.15 引入了名为 ollama launch 的新命令,可使用本地或云端模型,自动完成 Claude Code、OpenCode、Codex 等常用编码工具的配置与启动。 如…

    2026年2月25日
    1.9K00
  • 智算新纪元:2026超万卡集群技术演进与产业协同全景解析

    自ChatGPT发布以来,全球科技产业迎来大模型创新浪潮,数据作为新生产要素、算力作为新基础能源、大模型作为新生产工具的格局已全面成型,各行各业从“+AI”向“AI+”的转型进入深水区。 2024至2026两年间,大模型参数量从万亿级向十万亿级跨越,多模态、超长序列、实时交互等场景的爆发式增长,推动智算基础设施迎来代际升级,超万卡集群已从“军备竞赛标配”转变…

    大模型工程 2026年2月23日
    1.0K00
  • HarmonyOS架构深度解析:从分布式能力到实战迁移,解锁万物智联开发新范式

    2026年1月10日 13:30,“开发者系列沙龙:‘沪’联万物•智见未来——HarmonyOS架构演进与创新开发实战”即将在上海拉开帷幕。 无论你是刚刚接触鸿蒙生态、渴望掌握开发要领的新手,还是已有一定经验、希望深入理解HarmonyOS架构与创新实战的开发者,本次沙龙都将为你搭建一个高质量的学习与交流平台。 在这里,你不仅能直面鸿蒙技术专家,掌握Harm…

    大模型工程 2026年1月5日
    33800
  • VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

    本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…

    2025年12月23日
    40900
  • 2026年自动化加速利器:13个Python库提升开发效率

    在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…

    2025年12月21日
    60700