ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。

在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任务上提升4.38个百分点。该方法无需微调模型参数,且强模型积累的记忆可直接迁移至小模型,实现类似“免费知识蒸馏”的效果。

ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

ViLoMem的核心创新在于三个方面:

  1. 显式分离视觉错误与逻辑错误的存储机制;
  2. 为两类记忆分别设计生成、检索与更新流程;
  3. 通过增长-精炼机制动态控制记忆规模。

该方法在不修改大模型参数的前提下,于多个多模态基准上实现稳定性能提升,尤其在需要精细视觉理解的数学与真实场景推理任务中表现突出,为构建具备经验学习能力的多模态智能体提供了新路径。

大模型的记忆困境

当前多模态大模型(MLLM)普遍存在“金鱼记忆”现象:虽能记忆海量互联网信息,却难以记住自身刚犯的错误。在多模态解题任务中,模型常重复相同错误——例如将等腰三角形误判为等边三角形后,遇到类似图形仍会再次犯错。每道题几乎都从零开始,先前错误未能形成结构化经验。

现有记忆增强方法多采用外部“记忆库”,但主要存储推理轨迹,导致两个核心问题:

  1. 简短性偏差:经历多轮压缩总结后,关键细节被抹平,仅剩空洞结论;
  2. 单模态盲区:即便任务本身是多模态的,这些方法仍主要记录文本推理过程,极少追踪视觉误判根源。

人类语义记忆本质上是多模态整合的,既记忆逻辑规则(如“此题需用勾股定理”),也存储视觉经验(如“此角看似直角实非”)。ViLoMem沿此方向,将视觉与逻辑错误分离建库。

双流语义记忆框架

ViLoMem(Visual-Logical Memory)是一个即插即用的双流记忆框架,核心思想是将“看错什么”与“想错什么”分开记忆。

ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

框架包含两个关键组件:记忆生成与记忆检索。

记忆生成:为每次失败记录错因

当模型解题失败时,ViLoMem并行启动两个分析分支:

  • 视觉分析模块:通过多模态大模型识别视觉层面问题,生成结构化视觉指南。例如:“判断物体材质时,应优先对比其与场景中已知金属物体的高光形态和纹理,而非仅凭整体亮度判断。”
  • 逻辑分析模块:通过大语言模型定位推理链条错误,生成逻辑记忆。例如:“涉及垂直平分线的几何问题中,仅位于平分线上的点保证到线段两端点等距;无明确条件时,勿默认某点在垂直平分线上。”

为提升记忆通用性,新生成记忆会先与已有条目进行相似度匹配。若存在高度相似条目,则合并为更抽象的通用规则;否则创建新记忆槽位。这种增长-精炼机制既防止记忆无限膨胀,又能从具体案例中提炼普适语义模式。

记忆检索:视觉与逻辑路径分离

处理新问题时,两类记忆采用不同检索策略:

  • 视觉记忆检索:采用两阶段模式。第一阶段通过多模态嵌入进行图像级相似度搜索,筛选视觉相似的候选样本;第二阶段通过文本嵌入进行问题语义过滤,确保问题相关性。检索到合适视觉记忆后,系统生成问题感知的注意力热力图,高亮历史上易被忽视或看错的区域,提供“视觉踩坑指南”。
  • 逻辑记忆检索:先理解题目所属学科及关键概念,再基于分析结果构造查询向量进行语义匹配,仅保留相似度超过阈值的高相关记忆。这种“先理解后检索”方式比简单关键词匹配更精准。

多基准性能验证

研究团队在六个多模态推理基准上系统评估ViLoMem,结果显示不同规模模型均能获益:

  • 任务维度:数学类任务收益最大,GPT-4.1在MathVision上提升6.48个百分点,在MathVista上提升2.61个百分点;
  • 模型维度:小模型提升幅度更显著,Qwen3-VL-8B在MMMU上提升4.38个百分点,在RealWorldQA上提升2.74个百分点。

ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

这一结果符合预期:数学与视觉密集任务对“精准观察”要求最高,双流记忆能有效阻断视觉错误向推理链条的级联传播。

研究还进行了跨模型记忆迁移实验:让小模型直接使用大模型生成的记忆。结果显示,小模型凭借大模型记忆获得更好性能。

ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升

这表明ViLoMem提供了一种免微调的知识蒸馏路径——强模型的经验可直接转化为弱模型的学习资源。

项目主页:https://vi-ocean.github.io/projects/vilomem/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4500

(0)
上一篇 2025年12月17日 下午1:15
下一篇 2025年12月17日 下午6:35

相关推荐

  • 微信AI突破扩散模型推理瓶颈:WeDLM实现vLLM部署3倍加速,低熵场景超10倍

    腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性…

    2026年1月3日
    7000
  • Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析

    关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…

    2026年1月3日
    12500
  • T-MAN:NPU大模型推理的革命性方案,解码速度提升3.1倍,能效比领先84%

    关键词:T-MAN、查找表 、 低比特量化 、NPU 推理 、端到端优化 当大模型遇上手机 NPU,推理速度反而比 CPU 还慢?USTC、微软研究院、清华等研究团队提出统一查找表方案 ,同时解决速度、能耗与精度三大难题。 近年来,大语言模型(LLM)正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gem…

    2026年1月14日
    6900
  • 英伟达200亿美元豪购Groq:黄仁勋的AI推理野心与LPU芯片的颠覆性革命

    这个圣诞节,英伟达创始人黄仁勋并未停歇。英伟达史上最大的一笔“收购”正式落地——公司已与AI芯片初创公司Groq达成重磅交易,涉及金额高达200亿美元(约合人民币1405亿元)。 根据Groq官方声明,交易的核心内容是英伟达获得了Groq推理技术的授权,同时,Groq创始人兼CEO Jonathan Ross、总裁Sunny Madra及其他核心高管将加入英…

    2025年12月25日
    8600
  • 解耦推理:从实验室概念到行业标准,DistServe如何重塑AI推理架构

    解耦推理:从实验室概念到行业标准 2024年,由北京大学金鑫-刘譞哲团队、加州大学圣地亚哥分校Hao AI Lab等机构提出的DistServe系统,首次系统性地阐述了“解耦推理”理念。在短短一年多时间里,这一理念迅速从学术概念演变为行业标准,被NVIDIA、vLLM等主流大模型推理框架采纳,标志着AI推理架构正迈向“模块化智能”的新阶段。 如果说“摩尔定律…

    2025年11月9日
    8500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注