OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

随着多模态大模型向“全模态”演进，Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而，这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token，其中大量是冗余信息。注意力可视化实验揭示，在多模态推理过程中，仅有少量Token获得高注意力权重，大部分计算资源被消耗在冗余信息上。

针对音视频全模态场景下的计算瓶颈，快手可灵团队、中科院自动化所和南京大学的研究者提出了 OmniSIFT——一种模态非对称Token压缩框架。其核心洞察在于：视频信息远比音频密集，因此可以让视频“带着”音频走。该方法通过时空联合剪枝压缩视频Token，再用筛选后的视觉特征引导音频Token的选择，从而在保留关键语义的同时，剔除大量重复画面或无关声音。

实验结果显示，仅保留35%的多模态Token，模型性能不仅未下降，部分基准上甚至超过全量输入。 同时，推理时间减少42%，GPU显存占用同步下降。

全模态的计算挑战与现有方案的局限

尽管已有一些视觉Token压缩方法，但在“音频+视频”的全模态场景下仍面临挑战。视频包含大量空间与时间冗余，而音频对时间连续性高度敏感。更复杂的是，两种模态间存在紧密的语义关联，简单的统一压缩策略易破坏关键线索。

OmniSIFT从 模态冗余结构本身 出发，提出非对称压缩策略，旨在解决音视频信息量极度不对称、冗余度极高的问题。

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

OmniSIFT：模态非对称的Token压缩框架

OmniSIFT的核心思想是利用音视频之间的 非对称依赖关系：先通过视频信息找到关键视觉线索，再据此筛选最相关的音频Token。该框架由时空视频剪枝模块（STVP） 和视觉引导音频选择模块（VGAS） 协同工作，在大幅压缩序列长度的同时保留关键语义信息。

如图2所示，在“比分从27–26变为28–26时发生了什么？”的案例中，OmniSIFT能保留比分牌变化的关键视觉线索及相关音频，从而正确推断原因。而传统压缩方法易丢失此类信息，导致模型理解错误。

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

1. STVP：时空联合剪枝压缩视频

视频Token在多模态输入中占绝大多数。STVP模块从空间和时间两个维度识别冗余：

帧内剪枝：在单帧内部识别背景区域或重复纹理，仅保留具有语义价值的视觉特征。
帧间剪枝：分析连续帧间的视觉相似度，当相邻帧变化较小时，自动丢弃重复帧以减少时间冗余。

通过交替进行帧内与帧间剪枝，STVP能在保证视觉语义完整性的同时，大幅压缩视频Token数量。

2. VGAS：视觉引导的音频选择

音频对时间连续性敏感，简单丢弃Token易破坏语义。VGAS模块利用筛选后的视觉特征，通过跨模态注意力机制评估每个音频Token的重要性。

与当前视觉内容高度相关的音频片段（如说话声、碰撞声）被优先保留，无关背景音则被过滤。为使离散的Token选择过程可参与训练，研究者引入了Straight-Through Estimator（STE），实现端到端的可微优化。

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

实验结果：极致压缩下的性能与效率

研究团队在Qwen2.5-Omni-7B和Qwen2.5-Omni-3B上进行了系统评测，覆盖OmniVideoBench、DailyOmni、WorldSense等多个音视频理解基准。

性能表现：35% Token保留率下的“无损”效果

实验揭示了一个有趣现象：在多模态推理中，超过65%的Token实际上是冗余的。如表所示，在仅保留35% Token的情况下，OmniSIFT在多个任务上保持甚至超过了全量输入模型的表现。例如，在WorldSense基准上，OmniSIFT在Qwen2.5-Omni-7B上取得了50.0的成绩，高于全量基线模型的49.7。

在更严格的25% Token保留率下，OmniSIFT性能依然稳定，整体优于OmniZip、DyCoke等对比方法。

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

消融实验：验证“视觉引导”的必要性

消融实验分析了各模块的作用：
* 移除STVP的空间或时间剪枝模块，模型性能均明显下降，说明需同时建模空间与时间冗余。
* 将视觉引导的音频选择（VGAS） 替换为音频自身的注意力剪枝时，DailyOmni上的得分从73.2降至69.3。这证明在全模态理解中，视觉线索能显著帮助识别重要音频信息。

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

效率提升：推理时间减少42%

由于Token数量大幅减少，模型计算开销显著降低。在35% Token保留率下，OmniSIFT在Qwen2.5-Omni-7B上将总推理时间从15097秒降低至8756秒，减少约42%，GPU显存占用同步下降，而模型准确率保持稳定甚至略有提升。

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

总结

OmniSIFT通过模态非对称的Token压缩策略，在极高压缩率下保持了模型性能，并显著降低了推理开销。这为全模态大模型在实时交互和端侧部署等场景中的应用提供了新的可能性。

OmniSIFT 通过其模态非对称的 Token 压缩策略，在仅保留少量关键 Token 的情况下，依然保持了强大的多模态理解能力，为全模态模型的高效推理提供了新思路。这一工作揭示了一个深刻的洞见：决定模型理解能力的关键并非 Token 的数量，而是信息的密度。

论文信息
– 标题： OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models
– 作者机构： 中科院自动化所，快手可灵，南京大学等
– 论文链接： https://arxiv.org/abs/2602.04804

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25216

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

全模态的计算挑战与现有方案的局限

OmniSIFT：模态非对称的Token压缩框架

1. STVP：时空联合剪枝压缩视频

2. VGAS：视觉引导的音频选择

实验结果：极致压缩下的性能与效率

性能表现：35% Token保留率下的“无损”效果

消融实验：验证“视觉引导”的必要性

效率提升：推理时间减少42%

总结

相关推荐

当H100算力提升200倍：结构化数据建模的平衡点是否该被重新定义？

MIA记忆智能体：让AI告别“失忆式工作”，实现经验到能力的持续进化

从BERT到Genie：掩码范式如何铺就通往AGI的世界模型之路

2026年AI领域最重要的概念Harness：从百度伐谋登顶MLE-Bench看AI智能体的工程化革命

Python开发者必备：12个能解决大问题的小型库