被忽视的“隐形断层”:SFT究竟做了什么?
先来看一组颇具启发性的数据(基于7个主流多模态基准测试的平均准确率):
| 阶段 | Qwen3-VL-4B | Qwen3-VL-8B |
|---|---|---|
| 原始Instruct模型 | 59.7% | 63.3% |
| SFT之后 | 56.8% (-3.0) | 58.1% (-5.2) |
| SFT → GRPO | 61.8% | 63.3% |
观察可见,经过SFT后,模型性能不升反降。8B模型的表现更为突出:SFT导致准确率下滑5.2个百分点,而后续的强化学习(RL)训练,仅仅是将模型勉强拉回了基线水平(63.3%→58.1%→63.3%)。
这意味着,你的RL可能一直在“还债”,而非真正实现“提升”。
这并非孤立现象。在当前主流的强Instruct模型(如Qwen3-VL系列)上,只要SFT数据引入了与基座模型不一致的新分布(最常见的是GPT/Gemini蒸馏数据),几乎都会观察到类似的性能衰减。
原因非常直接:这类基座模型已经历大规模、精细的后训练,其能力本就处于一个相对稳定的高位。SFT强行让模型模仿一套新分布,结果是用一个更“窄”的分布去覆盖一个更“广”的能力,导致旧能力被冲刷,新能力又未能扎实习得。
换句话说,模型越强大、越接近实际部署水平,SFT引入的分布偏移就越成为RL之前一道难以绕过的“暗坑”。这正是PRISM必须存在的根本原因。
这一问题的核心,是后训练中已被反复探讨的“分布漂移”(Distributional Drift)。但在多模态场景下,它呈现出一种更隐蔽、也更难应对的表现形式。
问题根源:SFT引入的两类偏差
在多模态场景中,SFT会引入两类容易被忽视的偏差:
偏差一:表面模仿——Token级损失将过程与结果等量齐观
SFT的优化目标是在均匀的Token级损失下,让模型模仿演示轨迹。它不区分“过程”与“结果”:对于模型而言,正确的推理步骤与格式化的模板套话,其权重完全相同。
最终结果是,模型学会了“看起来像”正确答案,而非“思考出”正确答案。它习得的是表面模式,而非真正的推理能力。
偏差二:感知漂移与推理漂移在同一个损失函数中被混淆
这是多模态场景特有的麻烦。与纯文本模型不同,多模态模型的漂移并非单一类型,而是两种性质迥异的失败模式同时发生:
* 感知漂移:视觉定位出现错误,模型“看错了”。
* 推理漂移:逻辑推导过程失败,模型“想歪了”。
这两种漂移的成因和纠正方式各不相同,但SFT却用同一个Token损失函数将它们一并拟合。当进入RL阶段时,模型已在感知和推理两端同时发生偏移,变成了一个“既看不准、又想不对”的模型。
现有RL算法为何无力回天?
从GRPO到DAPO,再到GSPO,RL算法确实在不断进步。但它们解决的是RL阶段内部的问题:采样效率、梯度方差、策略崩溃。没有任何一个RL算法会回头去修复SFT留下的分布偏差。
打个不恰当的比方:这好比参加百米短跑。SFT不仅没让你前进,反而把你向后推了50米。现有的RL算法都在研究如何跑得更快,但你的起点却还在坑里。而PRISM要做的,就是在SFT和RL之间补上这一步:不仅把你拉回起跑线,还顺势往前推一把,让RL只需跑50米就能冲线。
PRISM核心方案:三阶段流水线
PRISM打破了传统的两阶段范式,提出了SFT → 分布对齐 (PRISM) → RLVR 的三阶段流水线。关键创新在于中间的分布对齐阶段。
混合专家判别器
感知漂移和推理漂移是两类成因不同的偏差,需要分开处理。为此,PRISM设计了一个混合专家判别器,由两个专门化的专家组成:
* 感知专家D_v:专门评估视觉描述,衡量模型的输出是否忠实于图像内容,用于解决感知漂移。
* 推理专家D_r:专门评估推理轨迹,衡量逻辑推导是否一致有效,用于解决推理漂移。
最终的判别得分为两者的加权组合:
r(x,y) = α · D_v(x,c) + (1-α) · D_r(x,t)
这种设计的优势在于提供解耦的纠正信号,避免将两种完全不同的误差模式塞进一个单一的标量中,从而导致梯度信号变得嘈杂。

黑盒蒸馏:无需教师模型Logits
PRISM的另一个优雅之处在于,它是黑盒的。许多蒸馏方法需要访问教师模型的Logits(内部概率分布),这意味着你必须拥有教师模型的完整权重。但在实际场景中,最强的模型往往只提供API接口,你只能看到输出,无法窥见内部状态。
PRISM完全在响应级别工作:从强模型(如Gemini 3 Flash)采集高质量输出作为正样本,从当前策略采样作为负样本,通过对抗博弈来对齐分布。只要能调用API,就能使用PRISM。
一个重要的设计决策:移除KL正则化
传统RL训练通常会加入一个KL散度约束,以防止策略偏离初始模型太远。但PRISM有意识地去除了这个约束。道理很简单:对齐阶段的目的,正是要纠正SFT带来的分布偏差。再添加一个将策略拉回SFT分布的KL约束,本身就与这个目标相互矛盾。
分布演变:对齐确实将模型拉回到更好的起点
下图直观展示了分布的演变过程。从Base到Post-SFT再到Post-Alignment,无论是推理步数还是视觉描述项数的分布,都在逐步向监督数据靠拢。

可以清晰地看到:Post-SFT(蓝线)与Supervision(黑线)之间存在显著偏差,而Post-Alignment(橙线)则大幅缩小了这一差距,并且这种改进在Post-RLVR(绿线)阶段得以保持。
实验验证
在Qwen3-VL的4B和8B两个规模上,PRISM搭配GRPO/DAPO/GSPO三种主流RL算法,在4个数学推理基准(MathVista、MathVerse、MathVision、WeMath) 和3个通用多模态基准(MMMU、MMMU-Pro、HallusionBench) 上全面验证了其有效性。
下表是论文Table 1的主要结果(灰色行为PRISM):

从主表中可以读出几个值得关注的信号:
1. 模型越强,PRISM的增益越大:8B模型获得了+6.0的平均提升,而4B模型为+4.4。更强的基座被SFT“伤害”得更深,因此也从对齐中受益更多。
2. PRISM在绝大多数子基准上取得了同基座下的最佳分数(表中加粗),覆盖了数学推理与通用视觉理解两类任务。这意味着对齐带来的并非某个领域的局部增益,而是分布层面的全局校准。
消融实验:每一步都不可或缺

从消融表(论文Table 2)中可以直观读出每个组件的贡献:
1. 去掉SFT阶段,性能直接下降16.8个百分点,说明SFT作为“冷启动”仍不可替代。PRISM并非要取代SFT,而是修复它带来的副作用。
2. 去掉对齐阶段,性能下降4.4个百分点,这与4B主表的提升幅度完全对应,是分布对齐效果的直接证据。
3. 用单个4B判别器替代MoE,性能下降3.4个百分点;仅用文本判别器,性能下降3.9个百分点。
后者尤其耐人寻味:一个缺乏视觉感知的判别器,只能捕捉到表面的模式(如格式、模板和风格),这导致策略模型学会了“鹦鹉学舌式的对齐”——它听起来像是在模仿监督数据,但实际上根本看不到所描述的内容。
结语
PRISM的提出,为多模态大模型的后训练范式打上了一个“补丁”,但这个补丁的重要性可能远超主程序本身。
SFT与RL之间并非无缝衔接,而是存在一条长期被忽视的分布断层。RL算法再强大,如果起点本身就偏离了方向,跑得越快,只会离目标越远。
要让多模态大模型在推理任务上更进一步,未必需要更复杂的RL算法或更多的训练数据。
把SFT与RL之间的这一步对齐补上,模型自然会走得更稳。
Arxiv:https://arxiv.org/abs/2604.28123
Github:https://github.com/XIAO4579/PRISM
合作详询:swang886@connect.hkust-gz.edu.cn
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35087

