SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

被忽视的“隐形断层”：SFT究竟做了什么？

先来看一组颇具启发性的数据（基于7个主流多模态基准测试的平均准确率）：

阶段	Qwen3-VL-4B	Qwen3-VL-8B
原始Instruct模型	59.7%	63.3%
SFT之后	56.8% (-3.0)	58.1% (-5.2)
SFT → GRPO	61.8%	63.3%

观察可见，经过SFT后，模型性能不升反降。8B模型的表现更为突出：SFT导致准确率下滑5.2个百分点，而后续的强化学习（RL）训练，仅仅是将模型勉强拉回了基线水平（63.3%→58.1%→63.3%）。

这意味着，你的RL可能一直在“还债”，而非真正实现“提升”。

这并非孤立现象。在当前主流的强Instruct模型（如Qwen3-VL系列）上，只要SFT数据引入了与基座模型不一致的新分布（最常见的是GPT/Gemini蒸馏数据），几乎都会观察到类似的性能衰减。

原因非常直接：这类基座模型已经历大规模、精细的后训练，其能力本就处于一个相对稳定的高位。SFT强行让模型模仿一套新分布，结果是用一个更“窄”的分布去覆盖一个更“广”的能力，导致旧能力被冲刷，新能力又未能扎实习得。

换句话说，模型越强大、越接近实际部署水平，SFT引入的分布偏移就越成为RL之前一道难以绕过的“暗坑”。这正是PRISM必须存在的根本原因。

这一问题的核心，是后训练中已被反复探讨的“分布漂移”（Distributional Drift）。但在多模态场景下，它呈现出一种更隐蔽、也更难应对的表现形式。

问题根源：SFT引入的两类偏差

在多模态场景中，SFT会引入两类容易被忽视的偏差：

偏差一：表面模仿——Token级损失将过程与结果等量齐观

SFT的优化目标是在均匀的Token级损失下，让模型模仿演示轨迹。它不区分“过程”与“结果”：对于模型而言，正确的推理步骤与格式化的模板套话，其权重完全相同。

最终结果是，模型学会了“看起来像”正确答案，而非“思考出”正确答案。它习得的是表面模式，而非真正的推理能力。

偏差二：感知漂移与推理漂移在同一个损失函数中被混淆

这是多模态场景特有的麻烦。与纯文本模型不同，多模态模型的漂移并非单一类型，而是两种性质迥异的失败模式同时发生：
* 感知漂移：视觉定位出现错误，模型“看错了”。
* 推理漂移：逻辑推导过程失败，模型“想歪了”。

这两种漂移的成因和纠正方式各不相同，但SFT却用同一个Token损失函数将它们一并拟合。当进入RL阶段时，模型已在感知和推理两端同时发生偏移，变成了一个“既看不准、又想不对”的模型。

现有RL算法为何无力回天？

从GRPO到DAPO，再到GSPO，RL算法确实在不断进步。但它们解决的是RL阶段内部的问题：采样效率、梯度方差、策略崩溃。没有任何一个RL算法会回头去修复SFT留下的分布偏差。

打个不恰当的比方：这好比参加百米短跑。SFT不仅没让你前进，反而把你向后推了50米。现有的RL算法都在研究如何跑得更快，但你的起点却还在坑里。而PRISM要做的，就是在SFT和RL之间补上这一步：不仅把你拉回起跑线，还顺势往前推一把，让RL只需跑50米就能冲线。

PRISM核心方案：三阶段流水线

PRISM打破了传统的两阶段范式，提出了SFT → 分布对齐 (PRISM) → RLVR 的三阶段流水线。关键创新在于中间的分布对齐阶段。

混合专家判别器

感知漂移和推理漂移是两类成因不同的偏差，需要分开处理。为此，PRISM设计了一个混合专家判别器，由两个专门化的专家组成：
* 感知专家D_v：专门评估视觉描述，衡量模型的输出是否忠实于图像内容，用于解决感知漂移。
* 推理专家D_r：专门评估推理轨迹，衡量逻辑推导是否一致有效，用于解决推理漂移。

最终的判别得分为两者的加权组合：
r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)

这种设计的优势在于提供解耦的纠正信号，避免将两种完全不同的误差模式塞进一个单一的标量中，从而导致梯度信号变得嘈杂。

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

黑盒蒸馏：无需教师模型Logits

PRISM的另一个优雅之处在于，它是黑盒的。许多蒸馏方法需要访问教师模型的Logits（内部概率分布），这意味着你必须拥有教师模型的完整权重。但在实际场景中，最强的模型往往只提供API接口，你只能看到输出，无法窥见内部状态。

PRISM完全在响应级别工作：从强模型（如Gemini 3 Flash）采集高质量输出作为正样本，从当前策略采样作为负样本，通过对抗博弈来对齐分布。只要能调用API，就能使用PRISM。

一个重要的设计决策：移除KL正则化

传统RL训练通常会加入一个KL散度约束，以防止策略偏离初始模型太远。但PRISM有意识地去除了这个约束。道理很简单：对齐阶段的目的，正是要纠正SFT带来的分布偏差。再添加一个将策略拉回SFT分布的KL约束，本身就与这个目标相互矛盾。

分布演变：对齐确实将模型拉回到更好的起点

下图直观展示了分布的演变过程。从Base到Post-SFT再到Post-Alignment，无论是推理步数还是视觉描述项数的分布，都在逐步向监督数据靠拢。

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

可以清晰地看到：Post-SFT（蓝线）与Supervision（黑线）之间存在显著偏差，而Post-Alignment（橙线）则大幅缩小了这一差距，并且这种改进在Post-RLVR（绿线）阶段得以保持。

实验验证

在Qwen3-VL的4B和8B两个规模上，PRISM搭配GRPO/DAPO/GSPO三种主流RL算法，在4个数学推理基准（MathVista、MathVerse、MathVision、WeMath） 和3个通用多模态基准（MMMU、MMMU-Pro、HallusionBench） 上全面验证了其有效性。

下表是论文Table 1的主要结果（灰色行为PRISM）：

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

从主表中可以读出几个值得关注的信号：
1. 模型越强，PRISM的增益越大：8B模型获得了+6.0的平均提升，而4B模型为+4.4。更强的基座被SFT“伤害”得更深，因此也从对齐中受益更多。
2. PRISM在绝大多数子基准上取得了同基座下的最佳分数（表中加粗），覆盖了数学推理与通用视觉理解两类任务。这意味着对齐带来的并非某个领域的局部增益，而是分布层面的全局校准。

消融实验：每一步都不可或缺

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

从消融表（论文Table 2）中可以直观读出每个组件的贡献：
1. 去掉SFT阶段，性能直接下降16.8个百分点，说明SFT作为“冷启动”仍不可替代。PRISM并非要取代SFT，而是修复它带来的副作用。
2. 去掉对齐阶段，性能下降4.4个百分点，这与4B主表的提升幅度完全对应，是分布对齐效果的直接证据。
3. 用单个4B判别器替代MoE，性能下降3.4个百分点；仅用文本判别器，性能下降3.9个百分点。

后者尤其耐人寻味：一个缺乏视觉感知的判别器，只能捕捉到表面的模式（如格式、模板和风格），这导致策略模型学会了“鹦鹉学舌式的对齐”——它听起来像是在模仿监督数据，但实际上根本看不到所描述的内容。

结语

PRISM的提出，为多模态大模型的后训练范式打上了一个“补丁”，但这个补丁的重要性可能远超主程序本身。

SFT与RL之间并非无缝衔接，而是存在一条长期被忽视的分布断层。RL算法再强大，如果起点本身就偏离了方向，跑得越快，只会离目标越远。

要让多模态大模型在推理任务上更进一步，未必需要更复杂的RL算法或更多的训练数据。

把SFT与RL之间的这一步对齐补上，模型自然会走得更稳。

Arxiv：https://arxiv.org/abs/2604.28123

Github：https://github.com/XIAO4579/PRISM

合作详询：swang886@connect.hkust-gz.edu.cn

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35087

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

被忽视的“隐形断层”：SFT究竟做了什么？

问题根源：SFT引入的两类偏差

偏差一：表面模仿——Token级损失将过程与结果等量齐观

偏差二：感知漂移与推理漂移在同一个损失函数中被混淆

现有RL算法为何无力回天？

PRISM核心方案：三阶段流水线

混合专家判别器

黑盒蒸馏：无需教师模型Logits

一个重要的设计决策：移除KL正则化

分布演变：对齐确实将模型拉回到更好的起点

实验验证

消融实验：每一步都不可或缺

结语

相关推荐

尤洋教授深度剖析：算力转化瓶颈与AGI突破路径

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

“微调已死”新佐证：谷歌革新AI学习范式，开创双向经验学习之路

Meta突破AI自主瓶颈：SSR自对弈框架让智能体摆脱人类数据依赖

8元跑通RL全流程！潞晨云微调SDK：算法与Infra解耦，1人顶替整支团队