RLHF
-
告别成对偏好!新加坡国立大学提出TGO:直接用标量分数对齐生成模型,被ICML 2026接收
生成模型的偏好对齐,或许正迈入一个全新的阶段。 在过去的几年里,大模型后训练(post-training)的主流方法,是让模型从“成对偏好”中学习。然而,无论是RLHF还是DPO,都面临一个共同的制约:反馈必须以成对形式出现。 但在现实应用场景中,反馈信号大多是针对单个样本的标量分数。 针对这一痛点,新加坡国立大学的研究团队提出了一种更直接的解决方案:Thr…
-
OpenAI前联合创始人深度复盘:ChatGPT本可提前问世,AGI实现或比预期晚2-3倍,上下文学习短期内无可替代
“如果早知道 Scaling 的回报这么高,那ChatGPT完全可以更早做出来!” 这是OpenAI的前联合创始人、Thinking Machines首席科学家John Schulman在最新采访中的论断。 以他的判断,放在2018-2019年,只要几位非常优秀的人工作一年左右,就可以做出接近 ChatGPT-3.5 的系统。 John Schulman是强…
