GTR框架

大模型训练

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤，研究方向为大模型智能体与强化学习，导师为兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够有效提升大语言模型（LLMs）在思维链（Chain-of-Thou…

2026年3月13日
299000