生成模型的偏好对齐,或许正迈入一个全新的阶段。
在过去的几年里,大模型后训练(post-training)的主流方法,是让模型从“成对偏好”中学习。然而,无论是RLHF还是DPO,都面临一个共同的制约:反馈必须以成对形式出现。
但在现实应用场景中,反馈信号大多是针对单个样本的标量分数。

针对这一痛点,新加坡国立大学的研究团队提出了一种更直接的解决方案:Threshold-Guided Optimization (TGO)。这是一种全新的范式,它不依赖成对偏好数据,而是直接利用独立样本的标量评分来进行模型对齐。
简单来说,该方法从分数分布中估算出一个阈值。得分高于阈值的样本被视为“伪正例”(pseudo-positive),低于阈值的则被视为“伪负例”(pseudo-negative)。在训练过程中,模型会提高前者相对于参考模型(reference model)的概率,同时降低后者的概率。
同时,样本分数与阈值之间的差距越大,意味着监督信号越确定,该样本在训练中的权重也就越高。
目前,这项研究已被ICML 2026接收。它标志着生成模型的对齐不再仅仅依赖于“哪个更好”,而是开始直接利用“这个有多好”这一信息。

DPO的优雅,源于成对数据
DPO之所以能成为偏好优化领域中的代表性方法,一个关键原因在于,它将原本复杂的KL正则化强化学习目标(KL-regularized RL objective),巧妙地改写成了一个可以直接训练的分类目标。
在这个目标框架下,模型无需显式地训练一个奖励模型(reward model),也无需像PPO那样进行在线策略采样(online rollout),只需利用离线的偏好对数据,即可完成策略拟合(policy fitting)。
其背后的数学结构非常清晰:
在KL正则化的对齐目标下,最优策略可以推导出一个闭式解(closed-form solution)。但这个解中包含一个配分函数(partition function),即归一化项,需要对所有可能的输出进行求和,通常是不可计算的。
DPO之所以能绕过这个难题,是因为在同一个提示(prompt)下比较偏好输出(preferred output)和被拒输出(rejected output)时,这个配分函数会在计算奖励差值(reward difference)时自然地相互抵消。
换句话说,DPO的简洁性在很大程度上源于成对偏好数据本身。通过比较两个输出,难以计算的项消失了,问题也就被简化为一个关于相对概率的分类问题。
然而,这种优势也反过来限制了它的适用范围。
一旦监督信号不再是成对数据,而是单个样本的标量分数(scalar score),原来依靠“两两相减”来抵消配分函数的方法就不再适用。
因此,实践中常见的做法是将标量分数转化为偏好对。例如,在一个批次(batch)内进行排序,将高分样本视为胜者(winner),低分样本视为败者(loser);或者对同一提示下的多个候选结果进行两两比较,再构造出“选择/拒绝”对(chosen/rejected pair)。
这种方法虽然可行,但也会带来信息损失。
一个9.5分的样本和一个7.5分的样本,在成对训练中可能都被标记为胜者;而一个4.9分的样本和一个4.8分的样本,则可能被强行拆分成一组胜者和败者。
当两个样本的分数差距很小、且评分噪声较大时,这种人为构造的偏好对可能并不可靠,甚至可能放大错误的监督信号。
对于视觉生成任务而言,这个问题尤为突出。
图像和视频的质量很少能用简单的二元判断来衡量。一张图像可能审美不错但文本对齐性一般,也可能构图准确但风格不够理想;而视频还需要考虑运动是否自然、主体是否稳定、时间是否连贯等因素。
很多时候,一个连续的分数比一个简单的胜者/败者标签更能反映真实的反馈。
三条路线,都在放松成对约束
至于研究团队新提出的TGO,也并非凭空出现。近期领域内的多项工作其实都在回应同一个核心问题:偏好优化能否不再强依赖成对偏好?
PMPO
首先是Google DeepMind近期发布的论文《Preference Optimization as Probabilistic Inference》。

该工作的出发点是,模型并不一定需要看到严格配对的偏好/非偏好样本才能学习偏好。
只要拥有偏好样本(preferred examples)或非偏好样本(dis-preferred examples),甚至只有其中一种反馈,也可以进行优化。

在方法上,它基于EM风格的策略改进(EM-style policy improvement),将目标函数分解为三个部分:提高偏好样本的似然(likelihood),降低非偏好样本的似然,同时让新策略保持接近参考策略。
这条路线的主要特点是反馈结构更加灵活。传统的DPO需要一个提示下的“选择”和“拒绝”样本配成一对,而PMPO允许正负样本不成对出现,也允许数据分布不平衡。
这对许多现实任务具有重要意义,因为真实数据中往往只有“这个结果不错”或“这个结果不行”这类单一反馈,而非完整的两两比较。
QRPO
论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》 则从另一个角度解决了问题:
如果我们手中并非正负标签,而是逐点的绝对奖励(pointwise absolute reward),能否直接进行策略拟合?
这背后依然绕不开配分函数。

QRPO 的做法是将原始奖励转换为分位数奖励(quantile reward)。这样一来,在参考策略下,分位数奖励的分布会变成均匀分布(uniform distribution),配分函数也就拥有了解析形式。
因此,模型可以使用一个简单的逐点回归目标(pointwise regression objective),直接拟合KL正则化目标下的最优策略,而无需依赖成对比较来抵消归一化项。
TGO
而本文介绍的《Threshold-Guided Optimization for Visual Generative Models》 同样回应了这个问题,只是与PMPO、QRPO处理的是同一问题的不同侧面。

PMPO关注的是非配对的正面/负面反馈,QRPO关注的是逐点绝对奖励的可解析策略拟合,而TGO则面向视觉生成模型,选择了一个更轻量的阈值方案。
这三者的共同点在于,都在将偏好优化从“必须有成对数据”这一前提中解放出来。
TGO的核心:用阈值近似基线
具体来说,TGO的方法看似简单,但并非仅仅是设定一个阈值进行二分类。其背后的推导源于KL正则化的对齐目标。
这就引出一个问题:对于一个给定的样本,最优策略究竟应该提高它的概率,还是降低它的概率?
理论上,这取决于该样本的奖励是否超过某个特定于实例的奥拉克尔基线(instance-specific oracle baseline)。如果奖励高于这个基线,那么模型应该提高该样本相对于参考模型的概率;如果奖励低于基线,则应降低其概率。
然而,这个奥拉克尔基线与配分函数有关,通常是不可计算的。
DPO的做法是利用成对比较使其相互抵消;QRPO的做法是通过分位数变换(quantile transformation)让配分函数变得可解析;而TGO则选择使用一个数据驱动的全局阈值(data-driven global threshold) 来近似它。

TGO首先从评分数据集(scored dataset)的分数分布中估算出一个阈值。
最常用的做法是设定一个百分位阈值(percentile threshold),例如选取中位数。随后,所有评分超过此阈值的样本会被标记为“伪正例”(pseudo-positive),而低于阈值的则被标记为“伪负例”(pseudo-negative)。
在训练阶段,模型会调整自身相对于参考模型(reference model)的对数似然比(log-likelihood ratio):对于伪正例样本,提升该比值;对于伪负例样本,则降低该比值。
进一步地,TGO引入了置信度加权(confidence weighting)机制。样本的分数距离阈值越远,说明其被判定为正例或负例的置信度越高,因此对训练过程的贡献也应更大。相反,那些分数接近阈值的样本,其类别归属较为模糊,训练时会被赋予更低的权重。
通过这种方式,TGO并没有完全舍弃标量分数中的幅度信息,而是巧妙地将分数的高低转化为监督信号的强度。
因此,TGO的规则可以概括为两个层面:阈值决定了更新的方向,而距离则决定了更新的力度。
这正是它与普通二值化方法的本质区别。普通二值化仅保留了正负标签,而TGO的置信度加权机制则继续利用了分数与阈值之间的距离程度。
对于视觉生成这类评分噪声较大、质量分布连续的任务而言,这一点至关重要。
需要强调的是,TGO并没有消除对反馈质量的依赖。标量分数仍然需要与目标偏好保持足够的相关性;如果评分器存在偏差或噪声较大,由阈值生成的伪标签也会继承这些缺陷。
因此,TGO的核心价值在于提供了一种更直接利用标量反馈(scalar feedback)的方法,而不是试图替代反馈建模本身。
为什么视觉生成尤其适合标量反馈(scalar feedback)
在语言模型中,成对偏好(pairwise preference)是一种非常自然的反馈形式。人类在比较两个回答的优劣时,很多时候确实比直接打分要更稳定。但在视觉生成领域,情况却不尽相同。
一张图片的质量好坏,往往不是一个简单的“胜过另一张图”就能概括的。它可能在审美上非常出色,但文本对齐(prompt alignment)稍显不足;也可能语义非常准确,但构图却略显平庸。此外,还存在许多更为主观的偏好,例如风格、色调、人物姿态、背景复杂度等。
这些复杂的因素叠加在一起,使得它们更适合被表达为一个连续的分数,或者多个维度的评分。
视频生成更是如此。视频不仅要评估单帧的质量,还要考虑运动的合理性、时间上的一致性、主体的稳定性、镜头的变化以及文本的对齐程度。
将这些丰富的信号强行压缩成一个成对偏好(pairwise preference),往往会导致大量细节信息的丢失。
在实际产品中,用户反馈也更接近于标量反馈(scalar feedback)或隐式反馈(implicit feedback)。用户可能会点赞、收藏、点击、停留、打分,或者对生成结果进行二次编辑。
这些信号本身并不是天然成对的,但它们却是改进模型至关重要的数据来源。如果对齐方法只能处理“赢家/输家”(winner/loser)这种形式,就很难充分利用这类反馈。
TGO正是针对这一缺口而设计的。 它不要求每个提示(prompt)下都有多个候选结果,也不要求人为构造偏好对。只要每个样本附带一个分数,就可以直接用于训练。
这使得视觉生成模型的对齐过程,更接近于真实反馈的收集方式。
从图像到视频:TGO在多种视觉生成范式上的验证
论文的实验覆盖了两种主流的视觉生成范式:一类是基于扩散的模型(diffusion-based models),另一类是基于掩码的生成模型(masked generative models)。
前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等常见模型,后者则包括Meissonic这样的掩码生成式Transformer(masked generative transformer)。
这表明TGO并非只适配某一种特定的模型结构。对于扩散模型,它可以结合均方误差风格的目标函数(MSE-style objective);对于MaskGIT风格的离散生成模型,它也可以基于词元似然(token likelihood)进行训练。
换句话说,TGO更像是一个通用的标量反馈对齐框架(scalar-feedback alignment framework),而不是某个特定架构上的技巧。
在图像生成实验中,TGO在Pick-a-Pic、PartiPrompts和HPSv2等测试集上进行了评估,并使用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score等多个奖励模型(reward model)作为评价指标。

实验结果显示,与SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等方法相比,TGO在多种设置下都能取得更高的奖励模型分数(reward-model scores)。
在视觉生成对齐领域,一个常见的担忧是奖励黑客(reward hacking):模型可能只是将某一个奖励模型的分数刷得很高,但实际的生成质量并没有真正改善。
TGO在多个奖励模型上均取得了提升,这说明它并非单纯地拟合某个特定的评分器,而是在更广泛的视觉偏好维度上带来了实质性的改进。

在视频生成方面,TGO-LoRA也被应用于Wan 1.3B+VideoReward的实验设置中。结果表明,它不仅提升了整体的VideoReward分数,还改善了多个子指标。
这说明,基于阈值的标量反馈(threshold-guided scalar feedback)不仅仅是图像生成中的一个局部方法,也具备扩展到视频生成领域的潜力。
不是替代DPO,而是补上另一种反馈接口
但TGO的初衷并非否定DPO。
成对偏好(pairwise preference)仍然非常重要,在许多任务中依然是最稳定、最直观的反馈形式。特别是当人类很难给出一个绝对的分数,但能够比较两个结果的优劣时,成对偏好仍然具有很高的实用价值。
然而,问题在于,成对偏好不应成为唯一的反馈接口。
生成模型正在进入越来越多的真实应用场景,而真实场景中的反馈并不会总是以“选中/拒绝”(chosen/rejected)的形式出现。
语言模型会得到奖励模型分数(reward model score)、可验证奖励(verifiable reward)、数学验证结果、代码通过率;图像模型会得到审美分数、图文对齐分数、人类评分;视频模型会得到运动质量、时间一致性和视频文本对齐分数;多模态系统还会有点击、收藏、停留、编辑等用户行为信号。
这些反馈大多是逐点(pointwise)的。它们不告诉模型“这个比另一个更好”,而是告诉模型“这个结果本身有多好”。如果对齐方法只能处理比较数据,就会错过大量自然存在的监督信号。
PMPO、QRPO和TGO的共同意义,正在于将偏好优化从成对监督(pairwise supervision)扩展到更一般的反馈优化(feedback optimization)。
PMPO表明,未配对的正面和负面反馈可以被纳入概率推断式的策略改进(policy improvement);QRPO表明,绝对奖励也可以通过分位数奖励(quantile reward)进入可解析的策略拟合(policy fitting);而TGO则表明,在视觉生成领域,一个经验阈值加上置信度权重,就足以将标量分数(scalar score)转化为有效的对齐信号。
那么,为什么这件事如今值得被认真对待呢?
因为生成模型越往产品化方向发展,反馈形态就越复杂。
早期的对齐研究可以假设有干净的偏好对,但真实用户不会总是配合系统进行A/B对比。
更多时候,系统拿到的是一个分数、一次点击、一次收藏、一次停留,或者一次修改。这些信号看起来零散,却可能构成下一阶段后训练(post-training)的主要数据来源。
对于视觉生成尤其如此。图像和视频的质量,本来就不是非黑即白的判断,而是审美、语义、结构、运动、风格和个体偏好的综合结果。直接从标量反馈(scalar feedback)中学习,可能比先构造成对偏好更自然,也更容易扩展。
TGO的价值就在这里。它没有把问题复杂化,而是用一种非常克制的方式,将标量反馈接入了KL正则化的对齐目标(KL-regularized alignment objective)。
从理论上讲,它用经验阈值近似了不可计算的预言机基线(oracle baseline);从工程上讲,它只需要带分数的样本(scored samples)就能进行训练;从实践上讲,它能同时覆盖扩散模型和掩码生成范式(masked generative paradigms),并在图像和视频任务上带来稳定的提升。
这可能是生成模型对齐接下来非常重要的一步:模型不能只会从“谁赢了”中学习,也要能从“这个结果有多好”中学习。

总的来说,过去,偏好优化的主流接口是成对比较(pairwise comparison)。这个接口足够清晰,也催生了DPO/GRPO这样简单有效的方法。
随着生成模型逐步迈入更复杂的实际应用场景,反馈信号本身也正变得日益多元化。评分、通过率、奖励模型输出、用户行为日志、编辑操作——这类点式信号(pointwise signals)将越来越普遍。
TGO给出的解决方案非常直接:不必非要将这些信号强行拆分为胜者与败者。 对于视觉生成模型而言,只需设定一个合理的阈值,就能将标量分数转化为更新方向;同时,利用分数与阈值之间的差距来衡量这一监督信号的可信度。
这并非一套复杂的系统,也不是一个沉重的强化学习流水线。它更像是一种更直接的方式,把真实反馈中原本就蕴含的信息传递给模型。
如果说DPO让偏好优化摆脱了复杂的强化学习,那么TGO、QRPO和PMPO这类工作,则正在进一步推动偏好优化摆脱对成对比较的强烈依赖。
生成模型对齐的下一个阶段,或许不再仅仅是追问“哪个更好”。而是要让模型真正学会理解:这个结果究竟有多好。
参考文献:
[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166
[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068
[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35210

