后训练对齐
-
Sol-RL:NVIDIA联合团队突破扩散模型强化学习算力瓶颈,FP4探索+BF16训练实现高效对齐
关键词:扩散模型强化学习(Diffusion RL)、NVFP4 量化、两阶段解耦训练、算法-硬件协同设计、GRPO、Blackwell 架构 在文本到图像扩散模型的后训练对齐领域,GRPO 等强化学习方法虽效果显著,却深陷“规模化采样”带来的巨大算力消耗困境。 NVIDIA、香港大学及 MIT 联合团队提出的 Sol-RL 框架,并未采用对模型进行直接粗暴…