多模态大语言模型
-
HiDrop:突破MLLM视觉Token压缩瓶颈,实现90%压缩率下98.3%性能保持
随着多模态大语言模型(MLLM)支持的上下文长度不断增长,高分辨率图像和长视频输入会产生远多于文本的视觉标记(Token)。在自注意力机制二次计算复杂度的制约下,这些海量视觉Token迅速成为模型推理效率的瓶颈。 现有研究通常采用渐进式剪枝来减少视觉Token,但大多采用固定的剪枝策略,未能充分考虑MLLM不同层级在多模态信息处理中的功能差异。 通过对MLL…
-
DualSpeed:革命性双模视觉Token修剪框架,实现MLLM训练4倍加速与99%性能保留
关键词:视觉令牌修剪、多模态大语言模型、高效训练、训练-推理不匹配、双模训练 近年来,多模态大语言模型在图像描述、视觉问答、视觉定位、多模态推理等任务中取得了显著突破,成为人工智能领域的重要研究方向。然而,随着模型规模不断扩大、视觉输入分辨率持续提升,MLLMs 的训练成本急剧上升,成为制约其发展和应用的关键瓶颈。 传统的效率优化方法主要聚焦于模型压缩、参数…
-
Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…
