模型加速

大模型推理

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

随着多模态大语言模型（MLLM）支持的上下文长度不断增长，高分辨率图像和长视频输入会产生远多于文本的视觉标记（Token）。在自注意力机制二次计算复杂度的制约下，这些海量视觉Token迅速成为模型推理效率的瓶颈。现有研究通常采用渐进式剪枝来减少视觉Token，但大多采用固定的剪枝策略，未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。通过对MLL…

2026年3月23日
242000
大模型推理

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

无需数据重训，视频扩散模型线性化提速20倍：CVPR 2024新突破视频生成已进入大规模时代，但随之而来的计算成本急剧攀升。生成一段10秒的视频，其token数量可超过5万，而模型核心的自注意力机制复杂度为O(n²)，导致推理过程极其缓慢，难以实用。将自注意力替换为复杂度为O(n)的线性注意力，是理想的解决方案，但现实情况是：直接替换会导致模型生成质量严…

2026年3月10日
249000