音视频处理
-
OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42%
OmniSIFT:音视频Token压缩新突破,仅35%Token实现性能提升,推理时间减少42% 随着多模态大模型向“全模态”演进,Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而,这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token,其中大量是冗余信息。注意力可视化实验揭示,在多模态…