清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的'思维崩塌'难题

论文第一作者为清华大学在读博士生魏彤，研究方向为大模型智能体与强化学习，导师为兴军亮、史元春；共同一作为腾讯杨一君；合作者为北京大学卢宗青；通讯作者为叶德珩。

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Reward, RLVR）能够有效提升大语言模型（LLMs）在思维链（Chain-of-Thought, CoT）决策任务上的能力。然而，对于面向目标导向动作推理任务的多模态大模型（VLM）智能体，强化学习在复杂问题上难以有效提升其决策能力，甚至可能导致思维过程的退化。

来自清华大学、北京大学与腾讯的研究团队深入探究了这一“思维崩塌”（thought collapse）现象。研究发现，由于模型训练反馈仅依赖于最终动作，强化学习无法有效约束CoT思维过程，导致VLM智能体的思维发生退化，丧失多样性，并输出不一致、不完整的推理思路。

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的'思维崩塌'难题

为应对思维崩塌问题，研究团队提出了思维引导的强化学习框架（Guided Thought Reinforcement, GTR）。该框架通过自动化修正器提供过程引导，在强化学习训练中实时优化模型的推理思路，且无需依赖精细的人工标注。在困难的卡牌游戏与具身智能任务中，基于LLaVA-7B的智能体以较小规模实现了相比当前最优方法（SOTA）的显著性能提升。

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的'思维崩塌'难题

论文标题：GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
论文链接：https://arxiv.org/pdf/2503.08525

1. “思维崩塌”现象影响RLVR训练效果

与纯文本智能体训练不同，在多模态信息引入和决策流程复杂性增加的交互式视觉环境中，使用强化学习训练VLM智能体更为困难。其中“思维崩塌”现象主要表现为：

思维多样性丧失：智能体的CoT过程失去多样性，对不同视觉与文本输入给出相同或相似的推理思路。
思维质量退化：模型输出的思路不正确、不一致或不完整，虽在形式上输出思路，但已丧失有效思考能力。
决策能力受限：思维能力的丧失极大限制了模型的最终决策能力，难以充分释放模型潜力。

实验表明，即使采用更大的模型或更长的训练时间，思维崩塌现象依然存在。其核心原因在于强化学习的训练机制：

环境提供的奖励完全由模型的最终动作决定。
比动作输出更长、更基础的思维过程缺乏直接评估与监督，仅能依赖结果奖励进行间接引导。
在动作步骤多、状态空间大、复杂度高的任务中，这一问题尤为显著。

这证明了在VLM智能体的强化学习中，对思维过程进行引导至关重要。

2. GTR框架如何避免模型“思维崩塌”？

先前研究已关注过程引导方法，但常见的过程奖励模型（Process Reward Models, PRMs）需要精细标注的多模态数据进行训练，成本高昂且过程繁琐；此外，在固定数据集上训练的PRM容易产生偏差，难以适应动态的交互式环境。

使用VLM进行打分的“VLM-as-a-judge”方法效果亦不理想。简单的数值奖励难以提供充足的信息量和有效指导，尤其考虑到大模型更强的奖励破解（reward hacking）能力。在模型基础能力较弱时，缺乏正向激励还易导致悲观探索问题。

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的'思维崩塌'难题

因此，研究需要找到一种足够简单、可规模化且信息量充足的思维引导方式。在GTR框架中，“修正器模型”（corrector model）承担了这一关键角色。

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的'思维崩塌'难题

GTR利用一个外部VLM作为修正器。在强化学习的每一步，修正器首先评估智能体思路中识别与推理的正确性；若发现不正确或不一致之处，则基于智能体的当前状态输入对思路进行修正。通过在常规PPO过程中加入一个针对思路token的监督微调（SFT）损失，将智能体的思路与修正器给出的正确结果对齐，从而形成一个“思维+动作”、“SFT+PPO”的联合训练框架。

通过这种方式，强化学习与思维引导得以相互补充。思维引导为训练提供了额外的监督信号，而强化学习通过可验证奖励的反馈，使得修正过程无需依赖专家级外部模型提供高质量参考轨迹，从而让智能体能够突破外部模型的能力上限。

针对在线训练中的样本分布偏移问题，GTR引入了DAgger策略以缓解错误累积。此外，框架还通过为智能体增加格式奖励与重复惩罚、为修正器模型提供工具调用以弥补专业知识等方法，进一步提升了训练数据的质量。

GTR训练过程的伪代码如下：

清华北大腾讯联合研究：GTR框架破解VLM智能体训练中的'思维崩塌'难题