SFT
-
SFT到RL之间藏了个大坑:多模态模型后训练被忽视的隐形断层
被忽视的“隐形断层”:SFT究竟做了什么? 先来看一组颇具启发性的数据(基于7个主流多模态基准测试的平均准确率): 阶段 Qwen3-VL-4B Qwen3-VL-8B 原始Instruct模型 59.7% 63.3% SFT之后 56.8% (-3.0) 58.1% (-5.2) SFT → GRPO 61.8% 63.3% 观察可见,经过SFT后,模型性…
被忽视的“隐形断层”:SFT究竟做了什么? 先来看一组颇具启发性的数据(基于7个主流多模态基准测试的平均准确率): 阶段 Qwen3-VL-4B Qwen3-VL-8B 原始Instruct模型 59.7% 63.3% SFT之后 56.8% (-3.0) 58.1% (-5.2) SFT → GRPO 61.8% 63.3% 观察可见,经过SFT后,模型性…