多模态推理

EmotionThinker：首个面向可解释情感推理的强化学习框架，让SpeechLLM学会“解释情绪”

语音情感识别（Speech Emotion Recognition, SER）在过去基本遵循同一种范式：输入语音，输出情绪标签。这种设定在工程上有效，但在认知层面却过于简化。在人类交流中，情绪判断从来不是一个“标签选择”的过程，而是一种基于证据整合的推理行为。我们会综合语调变化、音高起伏、语速快慢、重音位置、语义内容，以及说话人的身份特征，去解释“为什么”…

2026年2月25日

141000

AI产业动态

开源多模态推理新突破：MMFineReason框架以4B参数逆袭30B模型，开启数据驱动的高效推理时代

长期以来，开源多模态模型在复杂推理任务上，始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。社区开发者们逐渐意识到，核心痛点或许不在于模型架构的精进或者模型参数的规模。真正的瓶颈，在于高质量、思维链（CoT）密集的推理数据极度匮乏。在纯文本领域，DeepSeek-R1 的成功已验证了高质量后训练数据（Post-training D…

2026年2月13日

72000

AI产业动态

开源多模态推理新突破：MMFineReason框架以4B参数逆袭30B模型，开启数据驱动的高效推理时代

长期以来，开源多模态模型在复杂推理任务上，始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。社区开发者们逐渐意识到，核心痛点或许不在于模型架构的精进或参数规模的扩大，而在于高质量、思维链（CoT）密集的推理数据极度匮乏。在纯文本领域，DeepSeek-R1 的成功已验证了高质量后训练数据的威力。但在多模态领域，研究者们面对的是横亘…

2026年2月13日

103000

AI产业动态

MeepleLM：首个基于MDA框架与玩家画像的大模型桌游虚拟评测系统

MeepleLM团队投稿量子位 | 公众号 QbitAI 大模型桌游体验官来了！不仅能快速给出评价与建议，还能模拟不同类型玩家的体验差异。近期，来自盛大东京研究院、上海创智学院、南开大学、上海人工智能实验室的研究团队联合提出了MeepleLM ，这是首个能模拟真实玩家视角，并基于动态游戏体验给出建设性批评的虚拟试玩模型。为了减轻AI评价的“悬浮感”…

2026年2月12日

110000

大模型推理

ViLoMem：双流语义记忆破解大模型“金鱼记忆”难题，多模态推理性能显著提升

多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法，通过构建视觉流与逻辑流的双流语义记忆系统，使大模型能够像人类一样区分并存储视觉陷阱和推理错误，实现真正的“从错误中学习”。在六个多模态基准测试中，ViLoMem显著提升了模型性能：GPT-4.1在MathVision任务上提升6.48个百分点，Qwen3-VL-8B在MMMU任…

2025年12月17日

246000

AI产业动态

VisPlay：突破视觉语言模型的数据困境，开启自进化强化学习新纪元

在Vision-Language Model（VLM）领域，提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制，这不仅带来高昂的经济成本和时间成本，更关键的是难以实现规模化扩展。随着模型参数量的指数级增长，人工标注的速度已远远跟不上模型演化的需求，形成了制约VLM发展的“数据困境”。最新研究成果VisPlay首次提出了一种…

2025年12月1日

191000

AI产业动态

QSVD：多模态大模型轻量化革命——联合低秩分解与量化技术突破

在多模态人工智能的快速发展浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接计算机视觉与自然语言处理的核心桥梁。从图像描述生成、视觉问答到智能教育系统和交互式应用，这些模型让机器具备了“看懂世界、说人话”的能力。然而，这种强大的能力伴随着巨大的计算代价——模型参数动辄达到数百亿级别，导致显存占用巨大、推理速度缓慢，严重制…

2025年11月15日

220000