在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模态能力的可行性,为行业技术路径开辟了新方向。
研究团队聚焦于多模态后训练中的核心痛点。首先,在样本难度量化方面,传统纯文本数据的难度划分方法无法直接适用于多模态场景。多模态数据融合了视觉与文本双重特征,文本模态的难度常无法准确表征整体样本复杂度,尤其在OCR、目标检测等任务中,视觉信息的缺失或干扰会显著影响模型表现,导致难以筛选出对模型优化具有高价值的训练样本。其次,在训练范式协同性上,现有方法多采用“监督微调(SFT)+强化微调(RL)”的固定流程,且多数研究侧重于提升模型的推理性能。但多模态任务既包含视觉推理类(如数学、科学、图表分析),又涉及视觉感知类(如目标检测、定位、计数、OCR),单一范式可能无法适配两类数据的差异化需求,易导致模型在感知或推理任务中出现性能偏科,制约整体能力均衡发展。
针对这些瓶颈,团队从模态内敏感性与跨模态交互复杂度双重视角,提出了两种互补的难度量化策略:渐进式图像语义掩码(PISM)与跨模态注意力平衡(CMAB)。PISM基于“难样本对视觉信息损失更敏感”的假设,通过系统的图像退化实验量化样本难度。具体而言,对图像-文本样本对s=(I, Q),设置掩码比例序列Λ={λ_i | λ_i=0.0,0.1,…,0.9},模拟从无退化到重度退化的视觉信息损失场景。

每张掩码图像通过随机隐藏一定比例的像素区域,该过程模拟了不同程度的视觉信息损失。随后在这些掩码图像上评估模型性能,以了解模型为了准确推理对视觉细节的依赖程度。

对每个掩码比例λ_i,生成扰动图像(M(·)为随机像素掩码操作),输入模型得到预测结果

,通过二元指标

(1表示预测正确,0表示错误)评估性能。为降低随机性影响,每个掩码比例重复实验K=10次,计算鲁棒准确率

。定义失败阈值

,据此将样本分为4类:

另一方面,CMAB通过分析模型生成响应时对文本和对图像的注意力之比,评估跨模态交互复杂度。对于每个生成token,计算其在所有Transformer层上对输入文本token和图像token的平均注意力分数,然后对所有生成的token的这些分数取平均值。(N) 代表Transformer的总层数。

具体逻辑上,对输入的图像

与文本

计算模型生成每个响应token y_t时,在第l层Transformer的跨模态注意力权重

,并分解为图像注意力总和

与文本注意力总和

。定义跨层的token级注意力平衡比

,为降低层间噪声,排除首末层(主要负责输入编码与输出解码),计算几何均值

(ε≈10^{-8}避免数值不稳定)。对所有响应token取算术平均,得到样本级注意力平衡比

。基于

区分样本难度:

基于PISM与CMAB的难度分层结果,团队设计了两类后训练范式进行对比实验。第一种为GRPO-only范式,直接对难度分层后的样本(中等+困难样本)应用组相对策略优化(GRPO),无SFT预处理。第二种为SFT+GRPO范式,先对筛选后的样本(如困难样本、中等样本)进行SFT,再对目标样本应用GRPO,并测试SFT阶段样本难度顺序(如SFT(困难)+GRPO(中等)、SFT(中等)+GRPO(困难))对模型性能的影响。实验配置上,基础模型采用Qwen2.5VL-7B(多模态大模型,支持视觉-文本联合推理);硬件环境包括5个节点(每节点8×80GB NVIDIA A800 SXM4 GPU)和2个节点(每节点8×96GB NVIDIA H20 GPU);框架工具方面,SFT基于LLaMA-Factory实现,GRPO基于Swift框架实现,评估基于OpenCompass框架,采用GPT-4o-mini作为统一评分器;基准数据集涵盖6类通用场景的多模态任务。
实验结果与分析显示,在视觉推理与视觉感知两大类基准测试上,GRPO-only范式取得了突破性进展。PISM策略下的性能对比(以视觉推理数据集为例)

(注:表1,通过PISM在视觉推理数据集上使用SFT+GRPO和仅使用GRPO的训练结果比较,*表示次优结果,加粗表示最优结果)从表中可观察到,GRPO-only范式在仅使用中等+困难样本训练、且完全不做SFT的情况下,反而在几乎所有任务中拿下最优成绩。具体数据上,MathVista达到68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083,相比全量数据训练大幅跃升,甚至全面超越传统的“SFT+RL”双阶段范式。这一结果直接挑战了传统认知,表明在多模态后训练环节中,样本难度的精准量化与分层比训练范式本身更为关键,而SFT并非RL的必要前置步骤。研究不仅为多模态大模型找到了可量化、可操作的“难度采样”标准,更系统性验证了过去被视为“不可能有效”的训练路线,即仅靠RL强化策略(GRPO)就能独立完成多模态能力的优化,为后续研究提供了坚实的数据支撑与方法论参考。
— 图片补充 —


关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6071
