视觉逻辑分离
-
ViLoMem:双流语义记忆破解大模型“金鱼记忆”难题,多模态推理性能显著提升
多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…
多模态推理领域迎来重要突破。南京理工大学与百度等机构联合提出ViLoMem方法,通过构建视觉流与逻辑流的双流语义记忆系统,使大模型能够像人类一样区分并存储视觉陷阱和推理错误,实现真正的“从错误中学习”。 在六个多模态基准测试中,ViLoMem显著提升了模型性能:GPT-4.1在MathVision任务上提升6.48个百分点,Qwen3-VL-8B在MMMU任…