告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

生成模型的偏好对齐，或许正迈入一个全新的阶段。

在过去的几年里，大模型后训练（post-training）的主流方法，是让模型从“成对偏好”中学习。然而，无论是RLHF还是DPO，都面临一个共同的制约：反馈必须以成对形式出现。

但在现实应用场景中，反馈信号大多是针对单个样本的标量分数。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

针对这一痛点，新加坡国立大学的研究团队提出了一种更直接的解决方案：Threshold-Guided Optimization (TGO)。这是一种全新的范式，它不依赖成对偏好数据，而是直接利用独立样本的标量评分来进行模型对齐。

简单来说，该方法从分数分布中估算出一个阈值。得分高于阈值的样本被视为“伪正例”（pseudo-positive），低于阈值的则被视为“伪负例”（pseudo-negative）。在训练过程中，模型会提高前者相对于参考模型（reference model）的概率，同时降低后者的概率。

同时，样本分数与阈值之间的差距越大，意味着监督信号越确定，该样本在训练中的权重也就越高。

目前，这项研究已被ICML 2026接收。它标志着生成模型的对齐不再仅仅依赖于“哪个更好”，而是开始直接利用“这个有多好”这一信息。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

DPO的优雅，源于成对数据

DPO之所以能成为偏好优化领域中的代表性方法，一个关键原因在于，它将原本复杂的KL正则化强化学习目标（KL-regularized RL objective），巧妙地改写成了一个可以直接训练的分类目标。

在这个目标框架下，模型无需显式地训练一个奖励模型（reward model），也无需像PPO那样进行在线策略采样（online rollout），只需利用离线的偏好对数据，即可完成策略拟合（policy fitting）。

其背后的数学结构非常清晰：

在KL正则化的对齐目标下，最优策略可以推导出一个闭式解（closed-form solution）。但这个解中包含一个配分函数（partition function），即归一化项，需要对所有可能的输出进行求和，通常是不可计算的。

DPO之所以能绕过这个难题，是因为在同一个提示（prompt）下比较偏好输出（preferred output）和被拒输出（rejected output）时，这个配分函数会在计算奖励差值（reward difference）时自然地相互抵消。

换句话说，DPO的简洁性在很大程度上源于成对偏好数据本身。通过比较两个输出，难以计算的项消失了，问题也就被简化为一个关于相对概率的分类问题。

然而，这种优势也反过来限制了它的适用范围。

一旦监督信号不再是成对数据，而是单个样本的标量分数（scalar score），原来依靠“两两相减”来抵消配分函数的方法就不再适用。

因此，实践中常见的做法是将标量分数转化为偏好对。例如，在一个批次（batch）内进行排序，将高分样本视为胜者（winner），低分样本视为败者（loser）；或者对同一提示下的多个候选结果进行两两比较，再构造出“选择/拒绝”对（chosen/rejected pair）。

这种方法虽然可行，但也会带来信息损失。

一个9.5分的样本和一个7.5分的样本，在成对训练中可能都被标记为胜者；而一个4.9分的样本和一个4.8分的样本，则可能被强行拆分成一组胜者和败者。

当两个样本的分数差距很小、且评分噪声较大时，这种人为构造的偏好对可能并不可靠，甚至可能放大错误的监督信号。

对于视觉生成任务而言，这个问题尤为突出。

图像和视频的质量很少能用简单的二元判断来衡量。一张图像可能审美不错但文本对齐性一般，也可能构图准确但风格不够理想；而视频还需要考虑运动是否自然、主体是否稳定、时间是否连贯等因素。

很多时候，一个连续的分数比一个简单的胜者/败者标签更能反映真实的反馈。

三条路线，都在放松成对约束

至于研究团队新提出的TGO，也并非凭空出现。近期领域内的多项工作其实都在回应同一个核心问题：偏好优化能否不再强依赖成对偏好？

PMPO

首先是Google DeepMind近期发布的论文《Preference Optimization as Probabilistic Inference》。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

该工作的出发点是，模型并不一定需要看到严格配对的偏好/非偏好样本才能学习偏好。

只要拥有偏好样本（preferred examples）或非偏好样本（dis-preferred examples），甚至只有其中一种反馈，也可以进行优化。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

在方法上，它基于EM风格的策略改进（EM-style policy improvement），将目标函数分解为三个部分：提高偏好样本的似然（likelihood），降低非偏好样本的似然，同时让新策略保持接近参考策略。

这条路线的主要特点是反馈结构更加灵活。传统的DPO需要一个提示下的“选择”和“拒绝”样本配成一对，而PMPO允许正负样本不成对出现，也允许数据分布不平衡。

这对许多现实任务具有重要意义，因为真实数据中往往只有“这个结果不错”或“这个结果不行”这类单一反馈，而非完整的两两比较。

QRPO

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》 则从另一个角度解决了问题：

如果我们手中并非正负标签，而是逐点的绝对奖励（pointwise absolute reward），能否直接进行策略拟合？

这背后依然绕不开配分函数。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

QRPO 的做法是将原始奖励转换为分位数奖励（quantile reward）。这样一来，在参考策略下，分位数奖励的分布会变成均匀分布（uniform distribution），配分函数也就拥有了解析形式。

因此，模型可以使用一个简单的逐点回归目标（pointwise regression objective），直接拟合KL正则化目标下的最优策略，而无需依赖成对比较来抵消归一化项。

TGO

而本文介绍的《Threshold-Guided Optimization for Visual Generative Models》 同样回应了这个问题，只是与PMPO、QRPO处理的是同一问题的不同侧面。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

PMPO关注的是非配对的正面/负面反馈，QRPO关注的是逐点绝对奖励的可解析策略拟合，而TGO则面向视觉生成模型，选择了一个更轻量的阈值方案。

这三者的共同点在于，都在将偏好优化从“必须有成对数据”这一前提中解放出来。

TGO的核心：用阈值近似基线

具体来说，TGO的方法看似简单，但并非仅仅是设定一个阈值进行二分类。其背后的推导源于KL正则化的对齐目标。

这就引出一个问题：对于一个给定的样本，最优策略究竟应该提高它的概率，还是降低它的概率？

理论上，这取决于该样本的奖励是否超过某个特定于实例的奥拉克尔基线（instance-specific oracle baseline）。如果奖励高于这个基线，那么模型应该提高该样本相对于参考模型的概率；如果奖励低于基线，则应降低其概率。

然而，这个奥拉克尔基线与配分函数有关，通常是不可计算的。

DPO的做法是利用成对比较使其相互抵消；QRPO的做法是通过分位数变换（quantile transformation）让配分函数变得可解析；而TGO则选择使用一个数据驱动的全局阈值（data-driven global threshold） 来近似它。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

TGO首先从评分数据集（scored dataset）的分数分布中估算出一个阈值。

最常用的做法是设定一个百分位阈值（percentile threshold），例如选取中位数。随后，所有评分超过此阈值的样本会被标记为“伪正例”（pseudo-positive），而低于阈值的则被标记为“伪负例”（pseudo-negative）。

在训练阶段，模型会调整自身相对于参考模型（reference model）的对数似然比（log-likelihood ratio）：对于伪正例样本，提升该比值；对于伪负例样本，则降低该比值。

进一步地，TGO引入了置信度加权（confidence weighting）机制。样本的分数距离阈值越远，说明其被判定为正例或负例的置信度越高，因此对训练过程的贡献也应更大。相反，那些分数接近阈值的样本，其类别归属较为模糊，训练时会被赋予更低的权重。

通过这种方式，TGO并没有完全舍弃标量分数中的幅度信息，而是巧妙地将分数的高低转化为监督信号的强度。

因此，TGO的规则可以概括为两个层面：阈值决定了更新的方向，而距离则决定了更新的力度。

这正是它与普通二值化方法的本质区别。普通二值化仅保留了正负标签，而TGO的置信度加权机制则继续利用了分数与阈值之间的距离程度。

对于视觉生成这类评分噪声较大、质量分布连续的任务而言，这一点至关重要。

需要强调的是，TGO并没有消除对反馈质量的依赖。标量分数仍然需要与目标偏好保持足够的相关性；如果评分器存在偏差或噪声较大，由阈值生成的伪标签也会继承这些缺陷。

因此，TGO的核心价值在于提供了一种更直接利用标量反馈（scalar feedback）的方法，而不是试图替代反馈建模本身。

为什么视觉生成尤其适合标量反馈（scalar feedback）

在语言模型中，成对偏好（pairwise preference）是一种非常自然的反馈形式。人类在比较两个回答的优劣时，很多时候确实比直接打分要更稳定。但在视觉生成领域，情况却不尽相同。

一张图片的质量好坏，往往不是一个简单的“胜过另一张图”就能概括的。它可能在审美上非常出色，但文本对齐（prompt alignment）稍显不足；也可能语义非常准确，但构图却略显平庸。此外，还存在许多更为主观的偏好，例如风格、色调、人物姿态、背景复杂度等。

这些复杂的因素叠加在一起，使得它们更适合被表达为一个连续的分数，或者多个维度的评分。

视频生成更是如此。视频不仅要评估单帧的质量，还要考虑运动的合理性、时间上的一致性、主体的稳定性、镜头的变化以及文本的对齐程度。

将这些丰富的信号强行压缩成一个成对偏好（pairwise preference），往往会导致大量细节信息的丢失。

在实际产品中，用户反馈也更接近于标量反馈（scalar feedback）或隐式反馈（implicit feedback）。用户可能会点赞、收藏、点击、停留、打分，或者对生成结果进行二次编辑。

这些信号本身并不是天然成对的，但它们却是改进模型至关重要的数据来源。如果对齐方法只能处理“赢家/输家”（winner/loser）这种形式，就很难充分利用这类反馈。

TGO正是针对这一缺口而设计的。 它不要求每个提示（prompt）下都有多个候选结果，也不要求人为构造偏好对。只要每个样本附带一个分数，就可以直接用于训练。

这使得视觉生成模型的对齐过程，更接近于真实反馈的收集方式。

从图像到视频：TGO在多种视觉生成范式上的验证

论文的实验覆盖了两种主流的视觉生成范式：一类是基于扩散的模型（diffusion-based models），另一类是基于掩码的生成模型（masked generative models）。

前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等常见模型，后者则包括Meissonic这样的掩码生成式Transformer（masked generative transformer）。

这表明TGO并非只适配某一种特定的模型结构。对于扩散模型，它可以结合均方误差风格的目标函数（MSE-style objective）；对于MaskGIT风格的离散生成模型，它也可以基于词元似然（token likelihood）进行训练。

换句话说，TGO更像是一个通用的标量反馈对齐框架（scalar-feedback alignment framework），而不是某个特定架构上的技巧。

在图像生成实验中，TGO在Pick-a-Pic、PartiPrompts和HPSv2等测试集上进行了评估，并使用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score等多个奖励模型（reward model）作为评价指标。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

实验结果显示，与SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等方法相比，TGO在多种设置下都能取得更高的奖励模型分数（reward-model scores）。

在视觉生成对齐领域，一个常见的担忧是奖励黑客（reward hacking）：模型可能只是将某一个奖励模型的分数刷得很高，但实际的生成质量并没有真正改善。

TGO在多个奖励模型上均取得了提升，这说明它并非单纯地拟合某个特定的评分器，而是在更广泛的视觉偏好维度上带来了实质性的改进。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

在视频生成方面，TGO-LoRA也被应用于Wan 1.3B+VideoReward的实验设置中。结果表明，它不仅提升了整体的VideoReward分数，还改善了多个子指标。

这说明，基于阈值的标量反馈（threshold-guided scalar feedback）不仅仅是图像生成中的一个局部方法，也具备扩展到视频生成领域的潜力。

不是替代DPO，而是补上另一种反馈接口

但TGO的初衷并非否定DPO。

成对偏好（pairwise preference）仍然非常重要，在许多任务中依然是最稳定、最直观的反馈形式。特别是当人类很难给出一个绝对的分数，但能够比较两个结果的优劣时，成对偏好仍然具有很高的实用价值。

然而，问题在于，成对偏好不应成为唯一的反馈接口。

生成模型正在进入越来越多的真实应用场景，而真实场景中的反馈并不会总是以“选中/拒绝”（chosen/rejected）的形式出现。

语言模型会得到奖励模型分数（reward model score）、可验证奖励（verifiable reward）、数学验证结果、代码通过率；图像模型会得到审美分数、图文对齐分数、人类评分；视频模型会得到运动质量、时间一致性和视频文本对齐分数；多模态系统还会有点击、收藏、停留、编辑等用户行为信号。

这些反馈大多是逐点（pointwise）的。它们不告诉模型“这个比另一个更好”，而是告诉模型“这个结果本身有多好”。如果对齐方法只能处理比较数据，就会错过大量自然存在的监督信号。

PMPO、QRPO和TGO的共同意义，正在于将偏好优化从成对监督（pairwise supervision）扩展到更一般的反馈优化（feedback optimization）。

PMPO表明，未配对的正面和负面反馈可以被纳入概率推断式的策略改进（policy improvement）；QRPO表明，绝对奖励也可以通过分位数奖励（quantile reward）进入可解析的策略拟合（policy fitting）；而TGO则表明，在视觉生成领域，一个经验阈值加上置信度权重，就足以将标量分数（scalar score）转化为有效的对齐信号。

那么，为什么这件事如今值得被认真对待呢？

因为生成模型越往产品化方向发展，反馈形态就越复杂。

早期的对齐研究可以假设有干净的偏好对，但真实用户不会总是配合系统进行A/B对比。

更多时候，系统拿到的是一个分数、一次点击、一次收藏、一次停留，或者一次修改。这些信号看起来零散，却可能构成下一阶段后训练（post-training）的主要数据来源。

对于视觉生成尤其如此。图像和视频的质量，本来就不是非黑即白的判断，而是审美、语义、结构、运动、风格和个体偏好的综合结果。直接从标量反馈（scalar feedback）中学习，可能比先构造成对偏好更自然，也更容易扩展。

TGO的价值就在这里。它没有把问题复杂化，而是用一种非常克制的方式，将标量反馈接入了KL正则化的对齐目标（KL-regularized alignment objective）。

从理论上讲，它用经验阈值近似了不可计算的预言机基线（oracle baseline）；从工程上讲，它只需要带分数的样本（scored samples）就能进行训练；从实践上讲，它能同时覆盖扩散模型和掩码生成范式（masked generative paradigms），并在图像和视频任务上带来稳定的提升。

这可能是生成模型对齐接下来非常重要的一步：模型不能只会从“谁赢了”中学习，也要能从“这个结果有多好”中学习。

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

总的来说，过去，偏好优化的主流接口是成对比较（pairwise comparison）。这个接口足够清晰，也催生了DPO/GRPO这样简单有效的方法。

随着生成模型逐步迈入更复杂的实际应用场景，反馈信号本身也正变得日益多元化。评分、通过率、奖励模型输出、用户行为日志、编辑操作——这类点式信号（pointwise signals）将越来越普遍。

TGO给出的解决方案非常直接：不必非要将这些信号强行拆分为胜者与败者。 对于视觉生成模型而言，只需设定一个合理的阈值，就能将标量分数转化为更新方向；同时，利用分数与阈值之间的差距来衡量这一监督信号的可信度。

这并非一套复杂的系统，也不是一个沉重的强化学习流水线。它更像是一种更直接的方式，把真实反馈中原本就蕴含的信息传递给模型。

如果说DPO让偏好优化摆脱了复杂的强化学习，那么TGO、QRPO和PMPO这类工作，则正在进一步推动偏好优化摆脱对成对比较的强烈依赖。

生成模型对齐的下一个阶段，或许不再仅仅是追问“哪个更好”。而是要让模型真正学会理解：这个结果究竟有多好。

参考文献：
[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166
[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068
[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35210

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

DPO的优雅，源于成对数据

三条路线，都在放松成对约束

PMPO

QRPO

TGO

TGO的核心：用阈值近似基线

为什么视觉生成尤其适合标量反馈（scalar feedback）

从图像到视频：TGO在多种视觉生成范式上的验证

不是替代DPO，而是补上另一种反馈接口

相关推荐

Meta与NYU联手攻克AI规划难题：时间直道化让世界模型更接近现实

周末实战：7个可上线级Agentic AI项目，助你打造工程实力作品集

GraphRAG革命：知识图谱与向量数据库的协同进化

MiniMax M2.7重磅发布：全能AI Agent，复杂任务、团队协作、代码排障一网打尽

部署时学习：让LLM Agent在真实任务流中持续进化