多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。
在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任务上提升4.38个百分点。该方法无需微调模型参数,且强模型积累的记忆可直接迁移至小模型,实现类似“免费知识蒸馏”的效果。

ViLoMem的核心创新在于三个方面:
- 显式分离视觉错误与逻辑错误的存储机制;
- 为两类记忆分别设计生成、检索与更新流程;
- 通过增长-精炼机制动态控制记忆规模。
该方法在不修改大模型参数的前提下,于多个多模态基准上实现稳定性能提升,尤其在需要精细视觉理解的数学与真实场景推理任务中表现突出,为构建具备经验学习能力的多模态智能体提供了新路径。
大模型的记忆困境
当前多模态大模型(MLLM)普遍存在“金鱼记忆”现象:虽能记忆海量互联网信息,却难以记住自身刚犯的错误。在多模态解题任务中,模型常重复相同错误——例如将等腰三角形误判为等边三角形后,遇到类似图形仍会再次犯错。每道题几乎都从零开始,先前错误未能形成结构化经验。
现有记忆增强方法多采用外部“记忆库”,但主要存储推理轨迹,导致两个核心问题:
- 简短性偏差:经历多轮压缩总结后,关键细节被抹平,仅剩空洞结论;
- 单模态盲区:即便任务本身是多模态的,这些方法仍主要记录文本推理过程,极少追踪视觉误判根源。
人类语义记忆本质上是多模态整合的,既记忆逻辑规则(如“此题需用勾股定理”),也存储视觉经验(如“此角看似直角实非”)。ViLoMem沿此方向,将视觉与逻辑错误分离建库。
双流语义记忆框架
ViLoMem(Visual-Logical Memory)是一个即插即用的双流记忆框架,核心思想是将“看错什么”与“想错什么”分开记忆。

框架包含两个关键组件:记忆生成与记忆检索。
记忆生成:为每次失败记录错因
当模型解题失败时,ViLoMem并行启动两个分析分支:
- 视觉分析模块:通过多模态大模型识别视觉层面问题,生成结构化视觉指南。例如:“判断物体材质时,应优先对比其与场景中已知金属物体的高光形态和纹理,而非仅凭整体亮度判断。”
- 逻辑分析模块:通过大语言模型定位推理链条错误,生成逻辑记忆。例如:“涉及垂直平分线的几何问题中,仅位于平分线上的点保证到线段两端点等距;无明确条件时,勿默认某点在垂直平分线上。”
为提升记忆通用性,新生成记忆会先与已有条目进行相似度匹配。若存在高度相似条目,则合并为更抽象的通用规则;否则创建新记忆槽位。这种增长-精炼机制既防止记忆无限膨胀,又能从具体案例中提炼普适语义模式。
记忆检索:视觉与逻辑路径分离
处理新问题时,两类记忆采用不同检索策略:
- 视觉记忆检索:采用两阶段模式。第一阶段通过多模态嵌入进行图像级相似度搜索,筛选视觉相似的候选样本;第二阶段通过文本嵌入进行问题语义过滤,确保问题相关性。检索到合适视觉记忆后,系统生成问题感知的注意力热力图,高亮历史上易被忽视或看错的区域,提供“视觉踩坑指南”。
- 逻辑记忆检索:先理解题目所属学科及关键概念,再基于分析结果构造查询向量进行语义匹配,仅保留相似度超过阈值的高相关记忆。这种“先理解后检索”方式比简单关键词匹配更精准。
多基准性能验证
研究团队在六个多模态推理基准上系统评估ViLoMem,结果显示不同规模模型均能获益:
- 任务维度:数学类任务收益最大,GPT-4.1在MathVision上提升6.48个百分点,在MathVista上提升2.61个百分点;
- 模型维度:小模型提升幅度更显著,Qwen3-VL-8B在MMMU上提升4.38个百分点,在RealWorldQA上提升2.74个百分点。

这一结果符合预期:数学与视觉密集任务对“精准观察”要求最高,双流记忆能有效阻断视觉错误向推理链条的级联传播。
研究还进行了跨模型记忆迁移实验:让小模型直接使用大模型生成的记忆。结果显示,小模型凭借大模型记忆获得更好性能。

这表明ViLoMem提供了一种免微调的知识蒸馏路径——强模型的经验可直接转化为弱模型的学习资源。
项目主页:https://vi-ocean.github.io/projects/vilomem/
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4500
