多模态大语言模型

  • DualSpeed:革命性双模视觉Token修剪框架,实现MLLM训练4倍加速与99%性能保留

    关键词:视觉令牌修剪、多模态大语言模型、高效训练、训练-推理不匹配、双模训练 近年来,多模态大语言模型在图像描述、视觉问答、视觉定位、多模态推理等任务中取得了显著突破,成为人工智能领域的重要研究方向。然而,随着模型规模不断扩大、视觉输入分辨率持续提升,MLLMs 的训练成本急剧上升,成为制约其发展和应用的关键瓶颈。 传统的效率优化方法主要聚焦于模型压缩、参数…

    2026年2月5日
    7800
  • Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…

    2026年1月2日
    21400