多模态大模型后训练范式革新：中兴通讯团队验证GRPO-only路径，突破样本难度量化与训练协同瓶颈

在人工智能技术快速迭代的浪潮中，多模态大模型已成为连接视觉与语言智能的核心枢纽。然而，其后训练阶段长期面临两大关键挑战：缺乏可量化的样本难度评估体系，以及传统训练范式难以协同优化感知与推理能力。近期，由中南大学与中兴通讯AIM团队联合完成的研究，通过系统性实验设计，不仅为多模态后训练提供了创新的难度采样标准，更首次验证了仅依赖强化学习（GRPO）独立优化多模态能力的可行性，为行业技术路径开辟了新方向。

研究团队聚焦于多模态后训练中的核心痛点。首先，在样本难度量化方面，传统纯文本数据的难度划分方法无法直接适用于多模态场景。多模态数据融合了视觉与文本双重特征，文本模态的难度常无法准确表征整体样本复杂度，尤其在OCR、目标检测等任务中，视觉信息的缺失或干扰会显著影响模型表现，导致难以筛选出对模型优化具有高价值的训练样本。其次，在训练范式协同性上，现有方法多采用“监督微调（SFT）+强化微调（RL）”的固定流程，且多数研究侧重于提升模型的推理性能。但多模态任务既包含视觉推理类（如数学、科学、图表分析），又涉及视觉感知类（如目标检测、定位、计数、OCR），单一范式可能无法适配两类数据的差异化需求，易导致模型在感知或推理任务中出现性能偏科，制约整体能力均衡发展。

针对这些瓶颈，团队从模态内敏感性与跨模态交互复杂度双重视角，提出了两种互补的难度量化策略：渐进式图像语义掩码（PISM）与跨模态注意力平衡（CMAB）。PISM基于“难样本对视觉信息损失更敏感”的假设，通过系统的图像退化实验量化样本难度。具体而言，对图像-文本样本对s=(I, Q)，设置掩码比例序列Λ={λ_i | λ_i=0.0,0.1,…,0.9}，模拟从无退化到重度退化的视觉信息损失场景。

每张掩码图像通过随机隐藏一定比例的像素区域，该过程模拟了不同程度的视觉信息损失。随后在这些掩码图像上评估模型性能，以了解模型为了准确推理对视觉细节的依赖程度。

对每个掩码比例λ_i，生成扰动图像（M(·)为随机像素掩码操作），输入模型得到预测结果

，通过二元指标

（1表示预测正确，0表示错误）评估性能。为降低随机性影响，每个掩码比例重复实验K=10次，计算鲁棒准确率

。定义失败阈值

，据此将样本分为4类：

另一方面，CMAB通过分析模型生成响应时对文本和对图像的注意力之比，评估跨模态交互复杂度。对于每个生成token，计算其在所有Transformer层上对输入文本token和图像token的平均注意力分数，然后对所有生成的token的这些分数取平均值。(N) 代表Transformer的总层数。

具体逻辑上，对输入的图像

与文本

计算模型生成每个响应token y_t时，在第l层Transformer的跨模态注意力权重

，并分解为图像注意力总和

与文本注意力总和

。定义跨层的token级注意力平衡比

，为降低层间噪声，排除首末层（主要负责输入编码与输出解码），计算几何均值

（ε≈10^{-8}避免数值不稳定）。对所有响应token取算术平均，得到样本级注意力平衡比

。基于

区分样本难度：

基于PISM与CMAB的难度分层结果，团队设计了两类后训练范式进行对比实验。第一种为GRPO-only范式，直接对难度分层后的样本（中等+困难样本）应用组相对策略优化（GRPO），无SFT预处理。第二种为SFT+GRPO范式，先对筛选后的样本（如困难样本、中等样本）进行SFT，再对目标样本应用GRPO，并测试SFT阶段样本难度顺序（如SFT(困难)+GRPO(中等)、SFT(中等)+GRPO(困难)）对模型性能的影响。实验配置上，基础模型采用Qwen2.5VL-7B（多模态大模型，支持视觉-文本联合推理）；硬件环境包括5个节点（每节点8×80GB NVIDIA A800 SXM4 GPU）和2个节点（每节点8×96GB NVIDIA H20 GPU）；框架工具方面，SFT基于LLaMA-Factory实现，GRPO基于Swift框架实现，评估基于OpenCompass框架，采用GPT-4o-mini作为统一评分器；基准数据集涵盖6类通用场景的多模态任务。

实验结果与分析显示，在视觉推理与视觉感知两大类基准测试上，GRPO-only范式取得了突破性进展。PISM策略下的性能对比（以视觉推理数据集为例）

（注：表1，通过PISM在视觉推理数据集上使用SFT+GRPO和仅使用GRPO的训练结果比较，*表示次优结果，加粗表示最优结果）从表中可观察到，GRPO-only范式在仅使用中等+困难样本训练、且完全不做SFT的情况下，反而在几乎所有任务中拿下最优成绩。具体数据上，MathVista达到68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083，相比全量数据训练大幅跃升，甚至全面超越传统的“SFT+RL”双阶段范式。这一结果直接挑战了传统认知，表明在多模态后训练环节中，样本难度的精准量化与分层比训练范式本身更为关键，而SFT并非RL的必要前置步骤。研究不仅为多模态大模型找到了可量化、可操作的“难度采样”标准，更系统性验证了过去被视为“不可能有效”的训练路线，即仅靠RL强化策略（GRPO）就能独立完成多模态能力的优化，为后续研究提供了坚实的数据支撑与方法论参考。

— 图片补充 —