ICML 2026

大模型工程

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

生成模型的偏好对齐，或许正迈入一个全新的阶段。在过去的几年里，大模型后训练（post-training）的主流方法，是让模型从“成对偏好”中学习。然而，无论是RLHF还是DPO，都面临一个共同的制约：反馈必须以成对形式出现。但在现实应用场景中，反馈信号大多是针对单个样本的标量分数。针对这一痛点，新加坡国立大学的研究团队提出了一种更直接的解决方案：Thr…

15小时前
44000