模型加速

  • HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持

    随着多模态大语言模型(MLLM)支持的上下文长度不断增长,高分辨率图像和长视频输入会产生远多于文本的视觉标记(Token)。在自注意力机制二次计算复杂度的制约下,这些海量视觉Token迅速成为模型推理效率的瓶颈。 现有研究通常采用渐进式剪枝来减少视觉Token,但大多采用固定的剪枝策略,未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。 通过对MLL…

    2026年3月23日
    24200
  • LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破

    无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…

    2026年3月10日
    24900