多模态推理

  • EmotionThinker:首个面向可解释情感推理的强化学习框架,让SpeechLLM学会“解释情绪”

    语音情感识别(Speech Emotion Recognition, SER)在过去基本遵循同一种范式:输入语音,输出情绪标签。这种设定在工程上有效,但在认知层面却过于简化。 在人类交流中,情绪判断从来不是一个“标签选择”的过程,而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容,以及说话人的身份特征,去解释“为什么”…

    2026年2月25日
    14100
  • 开源多模态推理新突破:MMFineReason框架以4B参数逆袭30B模型,开启数据驱动的高效推理时代

    长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。 社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或者模型参数的规模。真正的瓶颈,在于高质量、思维链(CoT)密集的推理数据极度匮乏。 在纯文本领域,DeepSeek-R1 的成功已验证了高质量后训练数据(Post-training D…

    2026年2月13日
    7200
  • 开源多模态推理新突破:MMFineReason框架以4B参数逆袭30B模型,开启数据驱动的高效推理时代

    长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。 社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或参数规模的扩大,而在于高质量、思维链(CoT)密集的推理数据极度匮乏。 在纯文本领域,DeepSeek-R1 的成功已验证了高质量后训练数据的威力。但在多模态领域,研究者们面对的是横亘…

    2026年2月13日
    10300
  • MeepleLM:首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统

    MeepleLM团队 投稿 量子位 | 公众号 QbitAI 大模型桌游体验官 来了!不仅能快速给出评价与建议,还能模拟不同类型玩家的体验差异。 近期,来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ,这是首个能模拟真实玩家视角,并基于动态游戏体验给出建设性批评的虚拟试玩模型。 为了减轻AI评价的“悬浮感”…

    2026年2月12日
    11000
  • ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

    多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…

    2025年12月17日
    24400
  • VisPlay:突破视觉语言模型的数据困境,开启自进化强化学习新纪元

    在Vision-Language Model(VLM)领域,提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制,这不仅带来高昂的经济成本和时间成本,更关键的是难以实现规模化扩展。随着模型参数量的指数级增长,人工标注的速度已远远跟不上模型演化的需求,形成了制约VLM发展的“数据困境”。 最新研究成果VisPlay首次提出了一种…

    2025年12月1日
    19100
  • QSVD:多模态大模型轻量化革命——联合低秩分解与量化技术突破

    在多模态人工智能的快速发展浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接计算机视觉与自然语言处理的核心桥梁。从图像描述生成、视觉问答到智能教育系统和交互式应用,这些模型让机器具备了“看懂世界、说人话”的能力。然而,这种强大的能力伴随着巨大的计算代价——模型参数动辄达到数百亿级别,导致显存占用巨大、推理速度缓慢,严重制…

    2025年11月15日
    22000