SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层

被忽视的“隐形断层”:SFT究竟做了什么?

先来看一组颇具启发性的数据(基于7个主流多模态基准测试的平均准确率):

阶段 Qwen3-VL-4B Qwen3-VL-8B
原始Instruct模型 59.7% 63.3%
SFT之后 56.8% (-3.0) 58.1% (-5.2)
SFT → GRPO 61.8% 63.3%

观察可见,经过SFT后,模型性能不升反降。8B模型的表现更为突出:SFT导致准确率下滑5.2个百分点,而后续的强化学习(RL)训练,仅仅是将模型勉强拉回了基线水平(63.3%→58.1%→63.3%)。

这意味着,你的RL可能一直在“还债”,而非真正实现“提升”

这并非孤立现象。在当前主流的强Instruct模型(如Qwen3-VL系列)上,只要SFT数据引入了与基座模型不一致的新分布(最常见的是GPT/Gemini蒸馏数据),几乎都会观察到类似的性能衰减。

原因非常直接:这类基座模型已经历大规模、精细的后训练,其能力本就处于一个相对稳定的高位。SFT强行让模型模仿一套新分布,结果是用一个更“窄”的分布去覆盖一个更“广”的能力,导致旧能力被冲刷,新能力又未能扎实习得。

换句话说,模型越强大、越接近实际部署水平,SFT引入的分布偏移就越成为RL之前一道难以绕过的“暗坑”。这正是PRISM必须存在的根本原因。

这一问题的核心,是后训练中已被反复探讨的“分布漂移”(Distributional Drift)。但在多模态场景下,它呈现出一种更隐蔽、也更难应对的表现形式。

问题根源:SFT引入的两类偏差

在多模态场景中,SFT会引入两类容易被忽视的偏差:

偏差一:表面模仿——Token级损失将过程与结果等量齐观

SFT的优化目标是在均匀的Token级损失下,让模型模仿演示轨迹。它不区分“过程”与“结果”:对于模型而言,正确的推理步骤与格式化的模板套话,其权重完全相同。

最终结果是,模型学会了“看起来像”正确答案,而非“思考出”正确答案。它习得的是表面模式,而非真正的推理能力。

偏差二:感知漂移与推理漂移在同一个损失函数中被混淆

这是多模态场景特有的麻烦。与纯文本模型不同,多模态模型的漂移并非单一类型,而是两种性质迥异的失败模式同时发生:
* 感知漂移:视觉定位出现错误,模型“看错了”。
* 推理漂移:逻辑推导过程失败,模型“想歪了”。

这两种漂移的成因和纠正方式各不相同,但SFT却用同一个Token损失函数将它们一并拟合。当进入RL阶段时,模型已在感知和推理两端同时发生偏移,变成了一个“既看不准、又想不对”的模型。

现有RL算法为何无力回天?

从GRPO到DAPO,再到GSPO,RL算法确实在不断进步。但它们解决的是RL阶段内部的问题:采样效率、梯度方差、策略崩溃。没有任何一个RL算法会回头去修复SFT留下的分布偏差

打个不恰当的比方:这好比参加百米短跑。SFT不仅没让你前进,反而把你向后推了50米。现有的RL算法都在研究如何跑得更快,但你的起点却还在坑里。而PRISM要做的,就是在SFT和RL之间补上这一步:不仅把你拉回起跑线,还顺势往前推一把,让RL只需跑50米就能冲线

PRISM核心方案:三阶段流水线

PRISM打破了传统的两阶段范式,提出了SFT → 分布对齐 (PRISM) → RLVR 的三阶段流水线。关键创新在于中间的分布对齐阶段

混合专家判别器

感知漂移和推理漂移是两类成因不同的偏差,需要分开处理。为此,PRISM设计了一个混合专家判别器,由两个专门化的专家组成:
* 感知专家D_v:专门评估视觉描述,衡量模型的输出是否忠实于图像内容,用于解决感知漂移。
* 推理专家D_r:专门评估推理轨迹,衡量逻辑推导是否一致有效,用于解决推理漂移。

最终的判别得分为两者的加权组合:
r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

这种设计的优势在于提供解耦的纠正信号,避免将两种完全不同的误差模式塞进一个单一的标量中,从而导致梯度信号变得嘈杂。

SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层

黑盒蒸馏:无需教师模型Logits

PRISM的另一个优雅之处在于,它是黑盒的。许多蒸馏方法需要访问教师模型的Logits(内部概率分布),这意味着你必须拥有教师模型的完整权重。但在实际场景中,最强的模型往往只提供API接口,你只能看到输出,无法窥见内部状态。

PRISM完全在响应级别工作:从强模型(如Gemini 3 Flash)采集高质量输出作为正样本,从当前策略采样作为负样本,通过对抗博弈来对齐分布。只要能调用API,就能使用PRISM。

一个重要的设计决策:移除KL正则化

传统RL训练通常会加入一个KL散度约束,以防止策略偏离初始模型太远。但PRISM有意识地去除了这个约束。道理很简单:对齐阶段的目的,正是要纠正SFT带来的分布偏差。再添加一个将策略拉回SFT分布的KL约束,本身就与这个目标相互矛盾。

分布演变:对齐确实将模型拉回到更好的起点

下图直观展示了分布的演变过程。从Base到Post-SFT再到Post-Alignment,无论是推理步数还是视觉描述项数的分布,都在逐步向监督数据靠拢。

SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层

可以清晰地看到:Post-SFT(蓝线)与Supervision(黑线)之间存在显著偏差,而Post-Alignment(橙线)则大幅缩小了这一差距,并且这种改进在Post-RLVR(绿线)阶段得以保持。

实验验证

在Qwen3-VL的4B和8B两个规模上,PRISM搭配GRPO/DAPO/GSPO三种主流RL算法,在4个数学推理基准(MathVista、MathVerse、MathVision、WeMath)3个通用多模态基准(MMMU、MMMU-Pro、HallusionBench) 上全面验证了其有效性。

下表是论文Table 1的主要结果(灰色行为PRISM):

SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层

从主表中可以读出几个值得关注的信号:
1. 模型越强,PRISM的增益越大:8B模型获得了+6.0的平均提升,而4B模型为+4.4。更强的基座被SFT“伤害”得更深,因此也从对齐中受益更多。
2. PRISM在绝大多数子基准上取得了同基座下的最佳分数(表中加粗),覆盖了数学推理与通用视觉理解两类任务。这意味着对齐带来的并非某个领域的局部增益,而是分布层面的全局校准

消融实验:每一步都不可或缺

SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层

从消融表(论文Table 2)中可以直观读出每个组件的贡献:
1. 去掉SFT阶段,性能直接下降16.8个百分点,说明SFT作为“冷启动”仍不可替代。PRISM并非要取代SFT,而是修复它带来的副作用。
2. 去掉对齐阶段,性能下降4.4个百分点,这与4B主表的提升幅度完全对应,是分布对齐效果的直接证据。
3. 用单个4B判别器替代MoE,性能下降3.4个百分点;仅用文本判别器,性能下降3.9个百分点

后者尤其耐人寻味:一个缺乏视觉感知的判别器,只能捕捉到表面的模式(如格式、模板和风格),这导致策略模型学会了“鹦鹉学舌式的对齐”——它听起来像是在模仿监督数据,但实际上根本看不到所描述的内容。

结语

PRISM的提出,为多模态大模型的后训练范式打上了一个“补丁”,但这个补丁的重要性可能远超主程序本身。

SFT与RL之间并非无缝衔接,而是存在一条长期被忽视的分布断层。RL算法再强大,如果起点本身就偏离了方向,跑得越快,只会离目标越远。

要让多模态大模型在推理任务上更进一步,未必需要更复杂的RL算法或更多的训练数据。

把SFT与RL之间的这一步对齐补上,模型自然会走得更稳。

Arxiv:https://arxiv.org/abs/2604.28123

Github:https://github.com/XIAO4579/PRISM

合作详询:swang886@connect.hkust-gz.edu.cn


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35087

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • 尤洋教授深度剖析:算力转化瓶颈与AGI突破路径

    2026年即将到来,AI的发展已经进入一个新阶段:我们取得了惊人成就,却也同时面临进一步增长的瓶颈。 新加坡国立大学(NUS)的尤洋教授近期发表了一篇深度分析:《智能增长的瓶颈》。 在这篇分析文章中,尤洋教授从技术本质出发,直指智能增长的核心矛盾,并揭示了AGI(通用人工智能)的可能路径。 核心观点 智能增长的本质不是架构变革,而是算力如何转化为智能:AI的…

    2025年12月31日
    42500
  • MIT颠覆性研究:无需强化学习,随机扰动即可解锁大模型隐藏能力

    在大型语言模型(LLM)的开发流程中,后训练阶段通常被认为是赋予模型特定能力的关键环节。传统观点认为,模型必须通过强化学习(如PPO、GRPO或RLHF)或进化策略等算法,在反复的迭代和梯度优化中调整权重,才能在特定任务上达到理想性能。 然而,MIT CSAIL的研究人员Yulu Gan和Phillip Isola在其最新论文中对此发起了挑战。他们提出了一种…

    2026年3月15日
    53700
  • “微调已死”新佐证:谷歌革新AI学习范式,开创双向经验学习之路

    谷歌提出ReasoningBank技术,使AI能通过从自身成功与失败的经验中学习,形成一个持续自我优化的闭环,从而减少对传统微调的依赖。

    2025年10月13日
    45101
  • Meta突破AI自主瓶颈:SSR自对弈框架让智能体摆脱人类数据依赖

    “超级智能”是 Meta 长期坚持的宏大愿景。为了加速实现这一目标,Meta 的研究部门正经历着深刻的变革。尽管前 FAIR 负责人 Yann LeCun 曾对某些实现路径表示质疑,但构建一个能够超越人类专家水平的自主 AI 智能体,无疑是人工智能领域最具雄心的前沿目标之一。 在众多落地领域中,编程是 AI 智能体执行任务的代表性场景。当前,基于大语言模型(…

    2026年1月2日
    41600
  • 8元跑通RL全流程!潞晨云微调SDK:算法与Infra解耦,1人顶替整支团队

    大模型下半场的战火,已经从“暴力预训练”烧向了“后训练”战场。 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了“炼…

    2026年1月7日
    29900