SFT

大模型训练

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

被忽视的“隐形断层”：SFT究竟做了什么？先来看一组颇具启发性的数据（基于7个主流多模态基准测试的平均准确率）：阶段 Qwen3-VL-4B Qwen3-VL-8B 原始Instruct模型 59.7% 63.3% SFT之后 56.8% (-3.0) 58.1% (-5.2) SFT → GRPO 61.8% 63.3% 观察可见，经过SFT后，模型性…

7小时前
27000