层级对齐策略

大模型推理

HiDrop：突破MLLM视觉Token压缩瓶颈，实现90%压缩率下98.3%性能保持

随着多模态大语言模型（MLLM）支持的上下文长度不断增长，高分辨率图像和长视频输入会产生远多于文本的视觉标记（Token）。在自注意力机制二次计算复杂度的制约下，这些海量视觉Token迅速成为模型推理效率的瓶颈。现有研究通常采用渐进式剪枝来减少视觉Token，但大多采用固定的剪枝策略，未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。通过对MLL…

2026年3月23日
346000