ICML 2026
-
告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收
生成模型的偏好对齐,或许正迈入一个全新的阶段。 在过去的几年里,大模型后训练(post-training)的主流方法,是让模型从“成对偏好”中学习。然而,无论是RLHF还是DPO,都面临一个共同的制约:反馈必须以成对形式出现。 但在现实应用场景中,反馈信号大多是针对单个样本的标量分数。 针对这一痛点,新加坡国立大学的研究团队提出了一种更直接的解决方案:Thr…