多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模态能力的可行性,为行业技术路径开辟了新方向。

研究团队聚焦于多模态后训练中的核心痛点。首先,在样本难度量化方面,传统纯文本数据的难度划分方法无法直接适用于多模态场景。多模态数据融合了视觉与文本双重特征,文本模态的难度常无法准确表征整体样本复杂度,尤其在OCR、目标检测等任务中,视觉信息的缺失或干扰会显著影响模型表现,导致难以筛选出对模型优化具有高价值的训练样本。其次,在训练范式协同性上,现有方法多采用“监督微调(SFT)+强化微调(RL)”的固定流程,且多数研究侧重于提升模型的推理性能。但多模态任务既包含视觉推理类(如数学、科学、图表分析),又涉及视觉感知类(如目标检测、定位、计数、OCR),单一范式可能无法适配两类数据的差异化需求,易导致模型在感知或推理任务中出现性能偏科,制约整体能力均衡发展。

针对这些瓶颈,团队从模态内敏感性与跨模态交互复杂度双重视角,提出了两种互补的难度量化策略:渐进式图像语义掩码(PISM)与跨模态注意力平衡(CMAB)。PISM基于“难样本对视觉信息损失更敏感”的假设,通过系统的图像退化实验量化样本难度。具体而言,对图像-文本样本对s=(I, Q),设置掩码比例序列Λ={λ_i | λ_i=0.0,0.1,…,0.9},模拟从无退化到重度退化的视觉信息损失场景。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

每张掩码图像通过随机隐藏一定比例的像素区域,该过程模拟了不同程度的视觉信息损失。随后在这些掩码图像上评估模型性能,以了解模型为了准确推理对视觉细节的依赖程度。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

对每个掩码比例λ_i,生成扰动图像(M(·)为随机像素掩码操作),输入模型得到预测结果

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,通过二元指标

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(1表示预测正确,0表示错误)评估性能。为降低随机性影响,每个掩码比例重复实验K=10次,计算鲁棒准确率

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。定义失败阈值

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,据此将样本分为4类:

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

另一方面,CMAB通过分析模型生成响应时对文本和对图像的注意力之比,评估跨模态交互复杂度。对于每个生成token,计算其在所有Transformer层上对输入文本token和图像token的平均注意力分数,然后对所有生成的token的这些分数取平均值。(N) 代表Transformer的总层数。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

具体逻辑上,对输入的图像

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

与文本

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

计算模型生成每个响应token y_t时,在第l层Transformer的跨模态注意力权重

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,并分解为图像注意力总和

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

与文本注意力总和

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。定义跨层的token级注意力平衡比

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,为降低层间噪声,排除首末层(主要负责输入编码与输出解码),计算几何均值

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(ε≈10^{-8}避免数值不稳定)。对所有响应token取算术平均,得到样本级注意力平衡比

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。基于

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

区分样本难度:

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

基于PISM与CMAB的难度分层结果,团队设计了两类后训练范式进行对比实验。第一种为GRPO-only范式,直接对难度分层后的样本(中等+困难样本)应用组相对策略优化(GRPO),无SFT预处理。第二种为SFT+GRPO范式,先对筛选后的样本(如困难样本、中等样本)进行SFT,再对目标样本应用GRPO,并测试SFT阶段样本难度顺序(如SFT(困难)+GRPO(中等)、SFT(中等)+GRPO(困难))对模型性能的影响。实验配置上,基础模型采用Qwen2.5VL-7B(多模态大模型,支持视觉-文本联合推理);硬件环境包括5个节点(每节点8×80GB NVIDIA A800 SXM4 GPU)和2个节点(每节点8×96GB NVIDIA H20 GPU);框架工具方面,SFT基于LLaMA-Factory实现,GRPO基于Swift框架实现,评估基于OpenCompass框架,采用GPT-4o-mini作为统一评分器;基准数据集涵盖6类通用场景的多模态任务。

实验结果与分析显示,在视觉推理与视觉感知两大类基准测试上,GRPO-only范式取得了突破性进展。PISM策略下的性能对比(以视觉推理数据集为例)

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(注:表1,通过PISM在视觉推理数据集上使用SFT+GRPO和仅使用GRPO的训练结果比较,*表示次优结果,加粗表示最优结果)从表中可观察到,GRPO-only范式在仅使用中等+困难样本训练、且完全不做SFT的情况下,反而在几乎所有任务中拿下最优成绩。具体数据上,MathVista达到68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083,相比全量数据训练大幅跃升,甚至全面超越传统的“SFT+RL”双阶段范式。这一结果直接挑战了传统认知,表明在多模态后训练环节中,样本难度的精准量化与分层比训练范式本身更为关键,而SFT并非RL的必要前置步骤。研究不仅为多模态大模型找到了可量化、可操作的“难度采样”标准,更系统性验证了过去被视为“不可能有效”的训练路线,即仅靠RL强化策略(GRPO)就能独立完成多模态能力的优化,为后续研究提供了坚实的数据支撑与方法论参考。

— 图片补充 —

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/6071

(0)
上一篇 2025年11月28日 上午11:50
下一篇 2025年11月28日 上午11:58

相关推荐

  • 视频仿真革命:Google DeepMind用Veo模型重塑机器人策略评估范式

    在通用型机器人技术快速发展的当下,如何高效、安全地评估机器人策略已成为制约行业进步的关键瓶颈。传统基于真实硬件的评估方法不仅成本高昂、耗时漫长,更在安全性测试方面存在难以逾越的障碍。Google DeepMind Gemini Robotics团队最新提出的基于Veo视频模型的机器人策略评估系统,为这一难题提供了突破性的解决方案。 传统评估体系面临的根本性挑…

    2025年12月15日
    40700
  • MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍

    MIT革命性突破:RLM技术让大模型零改动解锁千万级上下文,推理性能飙升580倍 让大模型轻松处理比自身上下文窗口长两个数量级的超长文本! MIT CSAIL研究团队提出了一种名为递归语言模型(RLM) 的长文本处理新方法,旨在解决“上下文腐烂”问题。该方法无需修改模型架构或升级模块设计,即可让GPT-5、Qwen-3等顶尖模型具备处理千万级Token超长文…

    2026年1月19日
    41000
  • Meta提出超级智能体Hyperagents:能无限自我迭代的达尔文哥德尔机,AI安全成核心议题

    Meta提出超级智能体Hyperagents:能无限自我迭代的达尔文哥德尔机,AI安全成核心议题(1/2) 能无限自我迭代的“超级智能体”已经到来。 近期,Meta研究团队发表了一篇题为 《HYPERAGENTS》 的论文,迅速引发广泛关注。该论文将LSTM之父 Jürgen Schmidhuber 在二十多年前提出的 哥德尔机 思想,与 达尔文开放算法 相…

    2026年3月26日
    49900
  • 华人工程师葛小川将任AppLovin CTO,从Meta离职到硅谷千亿市值公司仅用三年

    硅谷,即将迎来一名新的华人CTO。 毕业于中科大少年班的80后葛小川,将在今年7月1日,任职一家硅谷上市公司的下一任首席技术官。 公司已正式发布了公告,葛小川的老板、公司创始人&CEO Adam Foroughi都在里面激动发言: 我们很高兴能从内部提拔继任者。这次任命充分印证了我们对人才培养的重视,以及在继任计划上的深思熟虑…… 从离职Meta的工…

    AI产业动态 2026年4月24日
    26500
  • AI普惠革命:从技术精英到全民触达,新兴市场如何成为AI终局的关键战场

    在2025年这个被称为“AI大年”的时间节点,一个令人深思的现象正在全球范围内浮现:尽管AI技术日新月异,但全球超过99.5%的普通人仍然无法真正享受到AI带来的生产力红利。这种普及率与应用密度的严重失衡,揭示了当前AI产业发展的深层结构性矛盾。 与舆论在“AI技术狂欢”与“AI泡沫破裂”两极间摇摆不同,Agnes AI创始人Bruce Yang敏锐地洞察到…

    2025年12月1日
    31500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注