自我纠偏

大模型工程

腾讯混元提出HY-SOAR：让扩散模型学会自我反思，无奖励模型优于RL方法

腾讯混元提出HY-SOAR：让扩散模型学会自我反思，无奖励模型优于RL方法近日，腾讯混元团队提出HY-SOAR（Self-Correction for Optimal Alignment and Refinement），一种面向扩散模型和流匹配模型的数据驱动后训练方法。 SOAR不依赖奖励模型、不用偏好标注、不靠负样本，直接从训练数据中挖掘轨迹级纠正信号，…

4小时前
31000