多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模态能力的可行性,为行业技术路径开辟了新方向。

研究团队聚焦于多模态后训练中的核心痛点。首先,在样本难度量化方面,传统纯文本数据的难度划分方法无法直接适用于多模态场景。多模态数据融合了视觉与文本双重特征,文本模态的难度常无法准确表征整体样本复杂度,尤其在OCR、目标检测等任务中,视觉信息的缺失或干扰会显著影响模型表现,导致难以筛选出对模型优化具有高价值的训练样本。其次,在训练范式协同性上,现有方法多采用“监督微调(SFT)+强化微调(RL)”的固定流程,且多数研究侧重于提升模型的推理性能。但多模态任务既包含视觉推理类(如数学、科学、图表分析),又涉及视觉感知类(如目标检测、定位、计数、OCR),单一范式可能无法适配两类数据的差异化需求,易导致模型在感知或推理任务中出现性能偏科,制约整体能力均衡发展。

针对这些瓶颈,团队从模态内敏感性与跨模态交互复杂度双重视角,提出了两种互补的难度量化策略:渐进式图像语义掩码(PISM)与跨模态注意力平衡(CMAB)。PISM基于“难样本对视觉信息损失更敏感”的假设,通过系统的图像退化实验量化样本难度。具体而言,对图像-文本样本对s=(I, Q),设置掩码比例序列Λ={λ_i | λ_i=0.0,0.1,…,0.9},模拟从无退化到重度退化的视觉信息损失场景。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

每张掩码图像通过随机隐藏一定比例的像素区域,该过程模拟了不同程度的视觉信息损失。随后在这些掩码图像上评估模型性能,以了解模型为了准确推理对视觉细节的依赖程度。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

对每个掩码比例λ_i,生成扰动图像(M(·)为随机像素掩码操作),输入模型得到预测结果

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,通过二元指标

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(1表示预测正确,0表示错误)评估性能。为降低随机性影响,每个掩码比例重复实验K=10次,计算鲁棒准确率

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。定义失败阈值

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,据此将样本分为4类:

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

另一方面,CMAB通过分析模型生成响应时对文本和对图像的注意力之比,评估跨模态交互复杂度。对于每个生成token,计算其在所有Transformer层上对输入文本token和图像token的平均注意力分数,然后对所有生成的token的这些分数取平均值。(N) 代表Transformer的总层数。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

具体逻辑上,对输入的图像

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

与文本

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

计算模型生成每个响应token y_t时,在第l层Transformer的跨模态注意力权重

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,并分解为图像注意力总和

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

与文本注意力总和

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。定义跨层的token级注意力平衡比

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,为降低层间噪声,排除首末层(主要负责输入编码与输出解码),计算几何均值

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(ε≈10^{-8}避免数值不稳定)。对所有响应token取算术平均,得到样本级注意力平衡比

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。基于

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

区分样本难度:

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

基于PISM与CMAB的难度分层结果,团队设计了两类后训练范式进行对比实验。第一种为GRPO-only范式,直接对难度分层后的样本(中等+困难样本)应用组相对策略优化(GRPO),无SFT预处理。第二种为SFT+GRPO范式,先对筛选后的样本(如困难样本、中等样本)进行SFT,再对目标样本应用GRPO,并测试SFT阶段样本难度顺序(如SFT(困难)+GRPO(中等)、SFT(中等)+GRPO(困难))对模型性能的影响。实验配置上,基础模型采用Qwen2.5VL-7B(多模态大模型,支持视觉-文本联合推理);硬件环境包括5个节点(每节点8×80GB NVIDIA A800 SXM4 GPU)和2个节点(每节点8×96GB NVIDIA H20 GPU);框架工具方面,SFT基于LLaMA-Factory实现,GRPO基于Swift框架实现,评估基于OpenCompass框架,采用GPT-4o-mini作为统一评分器;基准数据集涵盖6类通用场景的多模态任务。

实验结果与分析显示,在视觉推理与视觉感知两大类基准测试上,GRPO-only范式取得了突破性进展。PISM策略下的性能对比(以视觉推理数据集为例)

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(注:表1,通过PISM在视觉推理数据集上使用SFT+GRPO和仅使用GRPO的训练结果比较,*表示次优结果,加粗表示最优结果)从表中可观察到,GRPO-only范式在仅使用中等+困难样本训练、且完全不做SFT的情况下,反而在几乎所有任务中拿下最优成绩。具体数据上,MathVista达到68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083,相比全量数据训练大幅跃升,甚至全面超越传统的“SFT+RL”双阶段范式。这一结果直接挑战了传统认知,表明在多模态后训练环节中,样本难度的精准量化与分层比训练范式本身更为关键,而SFT并非RL的必要前置步骤。研究不仅为多模态大模型找到了可量化、可操作的“难度采样”标准,更系统性验证了过去被视为“不可能有效”的训练路线,即仅靠RL强化策略(GRPO)就能独立完成多模态能力的优化,为后续研究提供了坚实的数据支撑与方法论参考。

— 图片补充 —

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/6071

(0)
上一篇 2025年11月28日 上午11:50
下一篇 2025年11月28日 上午11:58

相关推荐

  • 推理模型效率革命:英伟达DLER如何用强化学习实现“短而精”的思考

    在通往通用人工智能(AGI)的道路上,推理能力被视为核心瓶颈之一。过去一年,以OpenAI o系列、DeepSeek-R1、Qwen为代表的推理模型通过“长链思维”策略显著提升了复杂问题解决能力,但这种进步伴随着沉重的代价:推理链条不断延长导致Token消耗呈指数级增长,响应速度大幅下降,部署成本急剧攀升。当DeepSeek-R1在AIME-24数学基准上需…

    2025年11月4日
    100
  • ICLR 2026揭示VLA八大技术趋势:从架构革新到评测演进,全面解析视觉-语言-动作融合前沿

    在人工智能领域,视觉-语言-动作模型正以前所未有的速度重塑机器人研究的格局。ICLR 2026会议数据显示,VLA相关投稿量从去年的个位数飙升至164篇,实现了18倍的惊人增长。这股热潮背后,是让机器人“听懂人话、看懂世界、动手干活”这一愿景的逐步实现。然而,在这片繁荣景象之下,我们需要深入探讨:当我们谈论VLA的进步时,我们究竟在谈论什么? 首先必须明确V…

    2025年10月31日
    200
  • 亚马逊云科技re:Invent 2025:AI算力帝国与开放模型生态的双重进化

    在拉斯维加斯举行的re:Invent 2025大会上,亚马逊云科技CEO Matt Garman以惊人的效率展示了公司在AI基础设施领域的全面布局。这场发布会的核心价值不仅体现在数量惊人的新品发布,更在于其系统性地构建了从底层算力到上层应用的完整AI技术栈。本文将从算力架构革新、模型生态战略、产业应用落地三个维度,深入剖析亚马逊云科技如何重新定义企业AI部署…

    2025年12月3日
    400
  • 具身智能专业破冰:上海交大引领全球教育变革与产业协同新范式

    近日,上海交通大学发布公告,拟于2025年增设具身智能本科专业,这标志着全球高等教育领域首次将具身智能作为独立本科专业进行系统化建设。这一举措不仅填补了现有教育体系在跨学科复合型人才培养上的结构性缺口,更折射出中国在人工智能前沿领域从跟随到引领的战略转型。 从全球视角审视,具身智能作为人工智能与物理世界交互的核心分支,正驱动着从纯软件智能向实体化智能体的范式…

    2025年11月30日
    300
  • GenMimic突破:从AI生成视频到机器人零样本模仿,人形机器人迎来动作学习新范式

    在《黑客帝国》中,Neo通过脑机接口瞬间掌握功夫的场景曾让无数观众惊叹。如今,这一科幻想象正通过伯克利、纽约大学和约翰・开普勒林茨大学联合研究团队提出的GenMimic方法,在机器人领域迈出实质性步伐。这项研究不仅解决了人形机器人如何零样本执行生成视频中人类动作的核心问题,更开辟了机器人动作学习的新路径。 研究团队构建的完整技术框架包含三个关键创新:GenM…

    2025年12月6日
    200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注