多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

在人工智能技术快速迭代的浪潮中,多模态大模型已成为连接视觉与语言智能的核心枢纽。然而,其后训练阶段长期面临两大关键挑战:缺乏可量化的样本难度评估体系,以及传统训练范式难以协同优化感知与推理能力。近期,由中南大学与中兴通讯AIM团队联合完成的研究,通过系统性实验设计,不仅为多模态后训练提供了创新的难度采样标准,更首次验证了仅依赖强化学习(GRPO)独立优化多模态能力的可行性,为行业技术路径开辟了新方向。

研究团队聚焦于多模态后训练中的核心痛点。首先,在样本难度量化方面,传统纯文本数据的难度划分方法无法直接适用于多模态场景。多模态数据融合了视觉与文本双重特征,文本模态的难度常无法准确表征整体样本复杂度,尤其在OCR、目标检测等任务中,视觉信息的缺失或干扰会显著影响模型表现,导致难以筛选出对模型优化具有高价值的训练样本。其次,在训练范式协同性上,现有方法多采用“监督微调(SFT)+强化微调(RL)”的固定流程,且多数研究侧重于提升模型的推理性能。但多模态任务既包含视觉推理类(如数学、科学、图表分析),又涉及视觉感知类(如目标检测、定位、计数、OCR),单一范式可能无法适配两类数据的差异化需求,易导致模型在感知或推理任务中出现性能偏科,制约整体能力均衡发展。

针对这些瓶颈,团队从模态内敏感性与跨模态交互复杂度双重视角,提出了两种互补的难度量化策略:渐进式图像语义掩码(PISM)与跨模态注意力平衡(CMAB)。PISM基于“难样本对视觉信息损失更敏感”的假设,通过系统的图像退化实验量化样本难度。具体而言,对图像-文本样本对s=(I, Q),设置掩码比例序列Λ={λ_i | λ_i=0.0,0.1,…,0.9},模拟从无退化到重度退化的视觉信息损失场景。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

每张掩码图像通过随机隐藏一定比例的像素区域,该过程模拟了不同程度的视觉信息损失。随后在这些掩码图像上评估模型性能,以了解模型为了准确推理对视觉细节的依赖程度。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

对每个掩码比例λ_i,生成扰动图像(M(·)为随机像素掩码操作),输入模型得到预测结果

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,通过二元指标

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(1表示预测正确,0表示错误)评估性能。为降低随机性影响,每个掩码比例重复实验K=10次,计算鲁棒准确率

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。定义失败阈值

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,据此将样本分为4类:

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

另一方面,CMAB通过分析模型生成响应时对文本和对图像的注意力之比,评估跨模态交互复杂度。对于每个生成token,计算其在所有Transformer层上对输入文本token和图像token的平均注意力分数,然后对所有生成的token的这些分数取平均值。(N) 代表Transformer的总层数。

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

具体逻辑上,对输入的图像

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

与文本

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

计算模型生成每个响应token y_t时,在第l层Transformer的跨模态注意力权重

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,并分解为图像注意力总和

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

与文本注意力总和

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。定义跨层的token级注意力平衡比

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

,为降低层间噪声,排除首末层(主要负责输入编码与输出解码),计算几何均值

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(ε≈10^{-8}避免数值不稳定)。对所有响应token取算术平均,得到样本级注意力平衡比

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

。基于

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

区分样本难度:

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

基于PISM与CMAB的难度分层结果,团队设计了两类后训练范式进行对比实验。第一种为GRPO-only范式,直接对难度分层后的样本(中等+困难样本)应用组相对策略优化(GRPO),无SFT预处理。第二种为SFT+GRPO范式,先对筛选后的样本(如困难样本、中等样本)进行SFT,再对目标样本应用GRPO,并测试SFT阶段样本难度顺序(如SFT(困难)+GRPO(中等)、SFT(中等)+GRPO(困难))对模型性能的影响。实验配置上,基础模型采用Qwen2.5VL-7B(多模态大模型,支持视觉-文本联合推理);硬件环境包括5个节点(每节点8×80GB NVIDIA A800 SXM4 GPU)和2个节点(每节点8×96GB NVIDIA H20 GPU);框架工具方面,SFT基于LLaMA-Factory实现,GRPO基于Swift框架实现,评估基于OpenCompass框架,采用GPT-4o-mini作为统一评分器;基准数据集涵盖6类通用场景的多模态任务。

实验结果与分析显示,在视觉推理与视觉感知两大类基准测试上,GRPO-only范式取得了突破性进展。PISM策略下的性能对比(以视觉推理数据集为例)

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

(注:表1,通过PISM在视觉推理数据集上使用SFT+GRPO和仅使用GRPO的训练结果比较,*表示次优结果,加粗表示最优结果)从表中可观察到,GRPO-only范式在仅使用中等+困难样本训练、且完全不做SFT的情况下,反而在几乎所有任务中拿下最优成绩。具体数据上,MathVista达到68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083,相比全量数据训练大幅跃升,甚至全面超越传统的“SFT+RL”双阶段范式。这一结果直接挑战了传统认知,表明在多模态后训练环节中,样本难度的精准量化与分层比训练范式本身更为关键,而SFT并非RL的必要前置步骤。研究不仅为多模态大模型找到了可量化、可操作的“难度采样”标准,更系统性验证了过去被视为“不可能有效”的训练路线,即仅靠RL强化策略(GRPO)就能独立完成多模态能力的优化,为后续研究提供了坚实的数据支撑与方法论参考。

— 图片补充 —

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈

多模态大模型后训练范式革新:中兴通讯团队验证GRPO-only路径,突破样本难度量化与训练协同瓶颈


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/6071

(0)
上一篇 2025年11月28日 上午11:50
下一篇 2025年11月28日 上午11:58

相关推荐

  • 斯坦福突破性研究:无需干细胞,通过酶抑制剂实现关节软骨再生

    斯坦福突破性研究:无需干细胞,通过酶抑制剂实现关节软骨再生 斯坦福医学院一项关于“返老还童”的新研究,正引发广泛关注。 这项研究聚焦于随年龄增长而变得脆弱的关节,其终极目标是:不依赖昂贵的干细胞或置换手术,仅通过口服或注射药物即可实现软骨再生。 成年关节软骨的修复通常面临“不可能三角”:* 基础差:软骨细胞数量少且难以分裂繁殖。* 无外部供给:软骨组织缺乏血…

    2026年1月25日
    4600
  • 重构AI记忆范式:GAM框架如何以动态搜索替代静态压缩,突破智能体长期记忆瓶颈

    在人工智能尤其是大模型驱动的智能体系统中,记忆机制一直是制约其长期任务执行与复杂推理能力的关键瓶颈。传统AI记忆系统普遍采用“压缩-摘要”模式,即将冗长的思维链、工具调用记录等历史轨迹压缩为简短的文本摘要以节省存储空间。这种做法的致命缺陷在于:信息保真度严重受损。如同将一本百科全书强行压缩成一张便利贴,当智能体后续需要回溯具体决策细节、工具参数或中间推理步骤…

    2025年11月27日
    8500
  • 从统计物理到信息论:解码大模型第一性原理的三维理论框架

    2022年底ChatGPT的横空出世,标志着大模型时代的正式开启。短短三年间,从GPT系列到DeepSeek,再到Google Gemini 3的强势推出,大模型以惊人的速度迭代演进。仅在美国,AI领域的年度投资规模已超过许多国家全年GDP,这一数字背后反映的是全球对人工智能技术突破的狂热期待。然而,在技术狂欢的背后,一个根本性问题日益凸显:我们是否真正理解…

    2025年12月11日
    10200
  • GPT-5被比作o3.1?OpenAI首次深度解析“思考型AI”:强化学习与预训练双轨并行,才是实现AGI的关键路径

    OpenAI研究副总裁Jerry Tworek首次详解GPT-5,称其本质是o3模型的升级版(o3.1)。他指出,强化学习与预训练结合是AGI发展的核心路径,未来将打造更自主、思考时间更长的推理模型。Jerry还认可DeepSeek的GRPO算法推动美国RL研究,并透露OpenAI内部高度自主、信息透明,员工甚至自费使用ChatGPT。

    2025年10月23日
    26000
  • 循环语言模型Ouro:在预训练中构建推理能力的新范式

    在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理…

    2025年11月4日
    7900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注