告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

生成模型的偏好对齐,或许正迈入一个全新的阶段。

在过去的几年里,大模型后训练(post-training)的主流方法,是让模型从“成对偏好”中学习。然而,无论是RLHF还是DPO,都面临一个共同的制约:反馈必须以成对形式出现

但在现实应用场景中,反馈信号大多是针对单个样本的标量分数

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

针对这一痛点,新加坡国立大学的研究团队提出了一种更直接的解决方案:Threshold-Guided Optimization (TGO)。这是一种全新的范式,它不依赖成对偏好数据,而是直接利用独立样本的标量评分来进行模型对齐。

简单来说,该方法从分数分布中估算出一个阈值。得分高于阈值的样本被视为“伪正例”(pseudo-positive),低于阈值的则被视为“伪负例”(pseudo-negative)。在训练过程中,模型会提高前者相对于参考模型(reference model)的概率,同时降低后者的概率。

同时,样本分数与阈值之间的差距越大,意味着监督信号越确定,该样本在训练中的权重也就越高。

目前,这项研究已被ICML 2026接收。它标志着生成模型的对齐不再仅仅依赖于“哪个更好”,而是开始直接利用“这个有多好”这一信息。

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

DPO的优雅,源于成对数据

DPO之所以能成为偏好优化领域中的代表性方法,一个关键原因在于,它将原本复杂的KL正则化强化学习目标(KL-regularized RL objective),巧妙地改写成了一个可以直接训练的分类目标。

在这个目标框架下,模型无需显式地训练一个奖励模型(reward model),也无需像PPO那样进行在线策略采样(online rollout),只需利用离线的偏好对数据,即可完成策略拟合(policy fitting)。

其背后的数学结构非常清晰:

在KL正则化的对齐目标下,最优策略可以推导出一个闭式解(closed-form solution)。但这个解中包含一个配分函数(partition function),即归一化项,需要对所有可能的输出进行求和,通常是不可计算的。

DPO之所以能绕过这个难题,是因为在同一个提示(prompt)下比较偏好输出(preferred output)和被拒输出(rejected output)时,这个配分函数会在计算奖励差值(reward difference)时自然地相互抵消。

换句话说,DPO的简洁性在很大程度上源于成对偏好数据本身。通过比较两个输出,难以计算的项消失了,问题也就被简化为一个关于相对概率的分类问题。

然而,这种优势也反过来限制了它的适用范围。

一旦监督信号不再是成对数据,而是单个样本的标量分数(scalar score),原来依靠“两两相减”来抵消配分函数的方法就不再适用。

因此,实践中常见的做法是将标量分数转化为偏好对。例如,在一个批次(batch)内进行排序,将高分样本视为胜者(winner),低分样本视为败者(loser);或者对同一提示下的多个候选结果进行两两比较,再构造出“选择/拒绝”对(chosen/rejected pair)。

这种方法虽然可行,但也会带来信息损失

一个9.5分的样本和一个7.5分的样本,在成对训练中可能都被标记为胜者;而一个4.9分的样本和一个4.8分的样本,则可能被强行拆分成一组胜者和败者。

当两个样本的分数差距很小、且评分噪声较大时,这种人为构造的偏好对可能并不可靠,甚至可能放大错误的监督信号。

对于视觉生成任务而言,这个问题尤为突出。

图像和视频的质量很少能用简单的二元判断来衡量。一张图像可能审美不错但文本对齐性一般,也可能构图准确但风格不够理想;而视频还需要考虑运动是否自然、主体是否稳定、时间是否连贯等因素。

很多时候,一个连续的分数比一个简单的胜者/败者标签更能反映真实的反馈

三条路线,都在放松成对约束

至于研究团队新提出的TGO,也并非凭空出现。近期领域内的多项工作其实都在回应同一个核心问题:偏好优化能否不再强依赖成对偏好?

PMPO

首先是Google DeepMind近期发布的论文《Preference Optimization as Probabilistic Inference》

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

该工作的出发点是,模型并不一定需要看到严格配对的偏好/非偏好样本才能学习偏好。

只要拥有偏好样本(preferred examples)或非偏好样本(dis-preferred examples),甚至只有其中一种反馈,也可以进行优化。

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

在方法上,它基于EM风格的策略改进(EM-style policy improvement),将目标函数分解为三个部分:提高偏好样本的似然(likelihood),降低非偏好样本的似然,同时让新策略保持接近参考策略。

这条路线的主要特点是反馈结构更加灵活。传统的DPO需要一个提示下的“选择”和“拒绝”样本配成一对,而PMPO允许正负样本不成对出现,也允许数据分布不平衡。

这对许多现实任务具有重要意义,因为真实数据中往往只有“这个结果不错”或“这个结果不行”这类单一反馈,而非完整的两两比较。

QRPO

论文《Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions》 则从另一个角度解决了问题:

如果我们手中并非正负标签,而是逐点的绝对奖励(pointwise absolute reward),能否直接进行策略拟合?

这背后依然绕不开配分函数

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

QRPO 的做法是将原始奖励转换为分位数奖励(quantile reward)。这样一来,在参考策略下,分位数奖励的分布会变成均匀分布(uniform distribution),配分函数也就拥有了解析形式。

因此,模型可以使用一个简单的逐点回归目标(pointwise regression objective),直接拟合KL正则化目标下的最优策略,而无需依赖成对比较来抵消归一化项。

TGO

而本文介绍的《Threshold-Guided Optimization for Visual Generative Models》 同样回应了这个问题,只是与PMPO、QRPO处理的是同一问题的不同侧面。

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

PMPO关注的是非配对的正面/负面反馈,QRPO关注的是逐点绝对奖励的可解析策略拟合,而TGO则面向视觉生成模型,选择了一个更轻量的阈值方案

这三者的共同点在于,都在将偏好优化从“必须有成对数据”这一前提中解放出来。

TGO的核心:用阈值近似基线

具体来说,TGO的方法看似简单,但并非仅仅是设定一个阈值进行二分类。其背后的推导源于KL正则化的对齐目标

这就引出一个问题:对于一个给定的样本,最优策略究竟应该提高它的概率,还是降低它的概率?

理论上,这取决于该样本的奖励是否超过某个特定于实例的奥拉克尔基线(instance-specific oracle baseline)。如果奖励高于这个基线,那么模型应该提高该样本相对于参考模型的概率;如果奖励低于基线,则应降低其概率。

然而,这个奥拉克尔基线与配分函数有关,通常是不可计算的。

DPO的做法是利用成对比较使其相互抵消;QRPO的做法是通过分位数变换(quantile transformation)让配分函数变得可解析;而TGO则选择使用一个数据驱动的全局阈值(data-driven global threshold) 来近似它。

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

TGO首先从评分数据集(scored dataset)的分数分布中估算出一个阈值。

最常用的做法是设定一个百分位阈值(percentile threshold),例如选取中位数。随后,所有评分超过此阈值的样本会被标记为“伪正例”(pseudo-positive),而低于阈值的则被标记为“伪负例”(pseudo-negative)。

在训练阶段,模型会调整自身相对于参考模型(reference model)的对数似然比(log-likelihood ratio):对于伪正例样本,提升该比值;对于伪负例样本,则降低该比值。

进一步地,TGO引入了置信度加权(confidence weighting)机制。样本的分数距离阈值越远,说明其被判定为正例或负例的置信度越高,因此对训练过程的贡献也应更大。相反,那些分数接近阈值的样本,其类别归属较为模糊,训练时会被赋予更低的权重。

通过这种方式,TGO并没有完全舍弃标量分数中的幅度信息,而是巧妙地将分数的高低转化为监督信号的强度。

因此,TGO的规则可以概括为两个层面:阈值决定了更新的方向,而距离则决定了更新的力度。

这正是它与普通二值化方法的本质区别。普通二值化仅保留了正负标签,而TGO的置信度加权机制则继续利用了分数与阈值之间的距离程度

对于视觉生成这类评分噪声较大、质量分布连续的任务而言,这一点至关重要。

需要强调的是,TGO并没有消除对反馈质量的依赖。标量分数仍然需要与目标偏好保持足够的相关性;如果评分器存在偏差或噪声较大,由阈值生成的伪标签也会继承这些缺陷。

因此,TGO的核心价值在于提供了一种更直接利用标量反馈(scalar feedback)的方法,而不是试图替代反馈建模本身。

为什么视觉生成尤其适合标量反馈(scalar feedback)

在语言模型中,成对偏好(pairwise preference)是一种非常自然的反馈形式。人类在比较两个回答的优劣时,很多时候确实比直接打分要更稳定。但在视觉生成领域,情况却不尽相同。

一张图片的质量好坏,往往不是一个简单的“胜过另一张图”就能概括的。它可能在审美上非常出色,但文本对齐(prompt alignment)稍显不足;也可能语义非常准确,但构图却略显平庸。此外,还存在许多更为主观的偏好,例如风格、色调、人物姿态、背景复杂度等。

这些复杂的因素叠加在一起,使得它们更适合被表达为一个连续的分数,或者多个维度的评分。

视频生成更是如此。视频不仅要评估单帧的质量,还要考虑运动的合理性、时间上的一致性、主体的稳定性、镜头的变化以及文本的对齐程度。

将这些丰富的信号强行压缩成一个成对偏好(pairwise preference),往往会导致大量细节信息的丢失。

在实际产品中,用户反馈也更接近于标量反馈(scalar feedback)或隐式反馈(implicit feedback)。用户可能会点赞、收藏、点击、停留、打分,或者对生成结果进行二次编辑。

这些信号本身并不是天然成对的,但它们却是改进模型至关重要的数据来源。如果对齐方法只能处理“赢家/输家”(winner/loser)这种形式,就很难充分利用这类反馈。

TGO正是针对这一缺口而设计的。 它不要求每个提示(prompt)下都有多个候选结果,也不要求人为构造偏好对。只要每个样本附带一个分数,就可以直接用于训练。

这使得视觉生成模型的对齐过程,更接近于真实反馈的收集方式。

从图像到视频:TGO在多种视觉生成范式上的验证

论文的实验覆盖了两种主流的视觉生成范式:一类是基于扩散的模型(diffusion-based models),另一类是基于掩码的生成模型(masked generative models)

前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等常见模型,后者则包括Meissonic这样的掩码生成式Transformer(masked generative transformer)。

这表明TGO并非只适配某一种特定的模型结构。对于扩散模型,它可以结合均方误差风格的目标函数(MSE-style objective);对于MaskGIT风格的离散生成模型,它也可以基于词元似然(token likelihood)进行训练。

换句话说,TGO更像是一个通用的标量反馈对齐框架(scalar-feedback alignment framework),而不是某个特定架构上的技巧。

在图像生成实验中,TGO在Pick-a-Pic、PartiPrompts和HPSv2等测试集上进行了评估,并使用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION Aesthetic Score等多个奖励模型(reward model)作为评价指标。

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

实验结果显示,与SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等方法相比,TGO在多种设置下都能取得更高的奖励模型分数(reward-model scores)

在视觉生成对齐领域,一个常见的担忧是奖励黑客(reward hacking):模型可能只是将某一个奖励模型的分数刷得很高,但实际的生成质量并没有真正改善。

TGO在多个奖励模型上均取得了提升,这说明它并非单纯地拟合某个特定的评分器,而是在更广泛的视觉偏好维度上带来了实质性的改进

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

在视频生成方面,TGO-LoRA也被应用于Wan 1.3B+VideoReward的实验设置中。结果表明,它不仅提升了整体的VideoReward分数,还改善了多个子指标。

这说明,基于阈值的标量反馈(threshold-guided scalar feedback)不仅仅是图像生成中的一个局部方法,也具备扩展到视频生成领域的潜力

不是替代DPO,而是补上另一种反馈接口

TGO的初衷并非否定DPO

成对偏好(pairwise preference)仍然非常重要,在许多任务中依然是最稳定、最直观的反馈形式。特别是当人类很难给出一个绝对的分数,但能够比较两个结果的优劣时,成对偏好仍然具有很高的实用价值。

然而,问题在于,成对偏好不应成为唯一的反馈接口。

生成模型正在进入越来越多的真实应用场景,而真实场景中的反馈并不会总是以“选中/拒绝”(chosen/rejected)的形式出现。

语言模型会得到奖励模型分数(reward model score)、可验证奖励(verifiable reward)、数学验证结果、代码通过率;图像模型会得到审美分数、图文对齐分数、人类评分;视频模型会得到运动质量、时间一致性和视频文本对齐分数;多模态系统还会有点击、收藏、停留、编辑等用户行为信号。

这些反馈大多是逐点(pointwise)的。它们不告诉模型“这个比另一个更好”,而是告诉模型“这个结果本身有多好”。如果对齐方法只能处理比较数据,就会错过大量自然存在的监督信号。

PMPO、QRPO和TGO的共同意义,正在于将偏好优化从成对监督(pairwise supervision)扩展到更一般的反馈优化(feedback optimization)

PMPO表明,未配对的正面和负面反馈可以被纳入概率推断式的策略改进(policy improvement);QRPO表明,绝对奖励也可以通过分位数奖励(quantile reward)进入可解析的策略拟合(policy fitting);而TGO则表明,在视觉生成领域,一个经验阈值加上置信度权重,就足以将标量分数(scalar score)转化为有效的对齐信号。

那么,为什么这件事如今值得被认真对待呢?

因为生成模型越往产品化方向发展,反馈形态就越复杂

早期的对齐研究可以假设有干净的偏好对,但真实用户不会总是配合系统进行A/B对比。

更多时候,系统拿到的是一个分数、一次点击、一次收藏、一次停留,或者一次修改。这些信号看起来零散,却可能构成下一阶段后训练(post-training)的主要数据来源。

对于视觉生成尤其如此。图像和视频的质量,本来就不是非黑即白的判断,而是审美、语义、结构、运动、风格和个体偏好的综合结果。直接从标量反馈(scalar feedback)中学习,可能比先构造成对偏好更自然,也更容易扩展。

TGO的价值就在这里。它没有把问题复杂化,而是用一种非常克制的方式,将标量反馈接入了KL正则化的对齐目标(KL-regularized alignment objective)

从理论上讲,它用经验阈值近似了不可计算的预言机基线(oracle baseline);从工程上讲,它只需要带分数的样本(scored samples)就能进行训练;从实践上讲,它能同时覆盖扩散模型和掩码生成范式(masked generative paradigms),并在图像和视频任务上带来稳定的提升。

这可能是生成模型对齐接下来非常重要的一步:模型不能只会从“谁赢了”中学习,也要能从“这个结果有多好”中学习。

告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收

总的来说,过去,偏好优化的主流接口是成对比较(pairwise comparison)。这个接口足够清晰,也催生了DPO/GRPO这样简单有效的方法。

随着生成模型逐步迈入更复杂的实际应用场景,反馈信号本身也正变得日益多元化。评分、通过率、奖励模型输出、用户行为日志、编辑操作——这类点式信号(pointwise signals)将越来越普遍。

TGO给出的解决方案非常直接:不必非要将这些信号强行拆分为胜者与败者。 对于视觉生成模型而言,只需设定一个合理的阈值,就能将标量分数转化为更新方向;同时,利用分数与阈值之间的差距来衡量这一监督信号的可信度。

这并非一套复杂的系统,也不是一个沉重的强化学习流水线。它更像是一种更直接的方式,把真实反馈中原本就蕴含的信息传递给模型。

如果说DPO让偏好优化摆脱了复杂的强化学习,那么TGO、QRPO和PMPO这类工作,则正在进一步推动偏好优化摆脱对成对比较的强烈依赖。

生成模型对齐的下一个阶段,或许不再仅仅是追问“哪个更好”。而是要让模型真正学会理解:这个结果究竟有多好。

参考文献:
[1] Preference Optimization as Probabilistic Inference, https://arxiv.org/abs/2410.04166
[2] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, https://arxiv.org/abs/2507.08068
[3] Threshold-Guided Optimization for Visual Generative Models, https://arxiv.org/abs/2605.04653


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35210

(0)
上一篇 14小时前
下一篇 14小时前

相关推荐

  • Meta与NYU联手攻克AI规划难题:时间直道化让世界模型更接近现实

    在人工智能的发展历程中,有一位科学家几乎贯穿了整个深度学习时代——他就是Yann LeCun。 许多人最初接触神经网络,往往是通过他在上世纪提出的手写数字识别系统LeNet。这一早期的卷积神经网络模型不仅成功应用于银行支票识别,也为后来席卷全球的深度学习浪潮奠定了重要基础。 与如今大量研究者将目光投向生成式AI不同,LeCun近年来一直在强调另一条更长期的研…

    2026年3月29日
    27200
  • 周末实战:7个可上线级Agentic AI项目,助你打造工程实力作品集

    停止只读关于 Agentic AI 的文章,开始动手构建吧。 大家都在谈论 autonomous AI agents,好像它们只属于研究机构和科技巨头。并不是这样。到了 2025 年,构建可用于生产的 Agentic AI 系统已经变得意外地容易——而这正是招聘经理最想看到的。 当别人还在做简单的 ChatGPT wrappers(简单封装)时,你可以构建真…

    2025年12月20日
    38700
  • GraphRAG革命:知识图谱与向量数据库的协同进化

    Knowledge graphs 和 vector databases 常被定位为彼此竞争的技术,但这种框架忽略了问题的本质。 它们是对立的吗?简短回答:不是。 它们解决的是根本不同的问题。事实上,它们最好的状态是协同,而不是对抗。如果你在构建现代 AI 系统,把它们当作对手是一种设计缺陷。 更好的理解方式是: Knowledge Graph = 结构化大脑…

    2025年12月28日
    37700
  • MiniMax M2.7重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽

    MiniMax M2.7 重磅发布:全能AI Agent,复杂任务、团队协作、代码排障一网打尽 MiniMax 在发布 M2.5 模型仅一个月后,再次推出了全新的 M2.7 模型。此次更新标志着模型在复杂任务处理与多智能体协作能力上实现了显著跃升。 M2.7 的推理与工程能力取得了质的飞跃,能够独立处理生产环境中棘手的故障排查任务。相较于以往仅能辅助编写代码…

    2026年3月18日
    1.0K00
  • 部署时学习:让LLM Agent在真实任务流中持续进化

    当大型语言模型代理(LLM Agent)步入真实世界应用场景时,它面对的已不再是静态的、一次性完成的测试数据集,而是源源不断、持续抵达的任务流。 每一次工具调用、代码执行、网页搜索或任务完成,都会随之产生反馈信号:操作是成功还是失败?收集到的证据是否充足?所选工具是否恰当?这些在部署阶段自然涌现的信号,能否反过来成为代理自我优化的养分? 研究团队的最新成果提…

    22小时前
    5300