音视频处理

大模型工程

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42%

OmniSIFT：音视频Token压缩新突破，仅35%Token实现性能提升，推理时间减少42% 随着多模态大模型向“全模态”演进，Gemini-2.5-Pro、Qwen2.5-Omni等模型已能同时理解视频与音频信息。然而，这种综合感知能力的计算代价巨大。一段几十秒的音视频往往被编码为成千上万个Token，其中大量是冗余信息。注意力可视化实验揭示，在多模态…

2026年3月11日
259000