RLHF - 鲸林向海

告别成对偏好！新加坡国立大学提出TGO：直接用标量分数对齐生成模型，被ICML 2026接收

生成模型的偏好对齐，或许正迈入一个全新的阶段。在过去的几年里，大模型后训练（post-training）的主流方法，是让模型从“成对偏好”中学习。然而，无论是RLHF还是DPO，都面临一个共同的制约：反馈必须以成对形式出现。但在现实应用场景中，反馈信号大多是针对单个样本的标量分数。针对这一痛点，新加坡国立大学的研究团队提出了一种更直接的解决方案：Thr…

15小时前

44000

AI产业动态

OpenAI前联合创始人深度复盘：ChatGPT本可提前问世，AGI实现或比预期晚2-3倍，上下文学习短期内无可替代

“如果早知道 Scaling 的回报这么高，那ChatGPT完全可以更早做出来！” 这是OpenAI的前联合创始人、Thinking Machines首席科学家John Schulman在最新采访中的论断。以他的判断，放在2018-2019年，只要几位非常优秀的人工作一年左右，就可以做出接近 ChatGPT-3.5 的系统。 John Schulman是强…

2025年12月24日

392002