清华研究

大模型工程

无监督强化学习的边界探索：清华研究揭示内在奖励的繁荣与陷阱

强化学习的范式迁移：从监督走向无监督强化学习正持续拓展大模型的能力边界。从 OpenAI o3 到 DeepSeek-R1、Gemini 3，顶尖模型正通过大规模 RLVR（可验证奖励强化学习）不断刷新推理任务的上限。然而，纯监督式训练的局限性日益凸显：人工标注成本呈指数级增长，在专业领域获取可靠标注愈发困难。当模型能力逼近甚至超越人类专家时，可靠的评估者…

3小时前
22000