多模态推理
-
ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升
多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…
-
VisPlay:突破视觉语言模型的数据困境,开启自进化强化学习新纪元
在Vision-Language Model(VLM)领域,提升复杂推理能力长期面临严峻挑战。传统方法主要依赖大规模人工标注数据或启发式奖励机制,这不仅带来高昂的经济成本和时间成本,更关键的是难以实现规模化扩展。随着模型参数量的指数级增长,人工标注的速度已远远跟不上模型演化的需求,形成了制约VLM发展的“数据困境”。 最新研究成果VisPlay首次提出了一种…
-
QSVD:多模态大模型轻量化革命——联合低秩分解与量化技术突破
在多模态人工智能的快速发展浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接计算机视觉与自然语言处理的核心桥梁。从图像描述生成、视觉问答到智能教育系统和交互式应用,这些模型让机器具备了“看懂世界、说人话”的能力。然而,这种强大的能力伴随着巨大的计算代价——模型参数动辄达到数百亿级别,导致显存占用巨大、推理速度缓慢,严重制…