自我纠偏
-
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法 近日,腾讯混元团队提出HY-SOAR(Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本,直接从训练数据中挖掘轨迹级纠正信号,…
腾讯混元提出HY-SOAR:让扩散模型学会自我反思,无奖励模型优于RL方法 近日,腾讯混元团队提出HY-SOAR(Self-Correction for Optimal Alignment and Refinement),一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本,直接从训练数据中挖掘轨迹级纠正信号,…