论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。
基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thought, CoT)决策任务上的能力。然而,对于面向目标导向动作推理任务的多模态大模型(VLM)智能体,强化学习在复杂问题上难以有效提升其决策能力,甚至可能导致思维过程的退化。
来自清华大学、北京大学与腾讯的研究团队深入探究了这一“思维崩塌”(thought collapse)现象。研究发现,由于模型训练反馈仅依赖于最终动作,强化学习无法有效约束CoT思维过程,导致VLM智能体的思维发生退化,丧失多样性,并输出不一致、不完整的推理思路。

为应对思维崩塌问题,研究团队提出了思维引导的强化学习框架(Guided Thought Reinforcement, GTR)。该框架通过自动化修正器提供过程引导,在强化学习训练中实时优化模型的推理思路,且无需依赖精细的人工标注。在困难的卡牌游戏与具身智能任务中,基于LLaVA-7B的智能体以较小规模实现了相比当前最优方法(SOTA)的显著性能提升。

- 论文标题:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
- 论文链接:https://arxiv.org/pdf/2503.08525
1. “思维崩塌”现象影响RLVR训练效果
与纯文本智能体训练不同,在多模态信息引入和决策流程复杂性增加的交互式视觉环境中,使用强化学习训练VLM智能体更为困难。其中“思维崩塌”现象主要表现为:
- 思维多样性丧失:智能体的CoT过程失去多样性,对不同视觉与文本输入给出相同或相似的推理思路。
- 思维质量退化:模型输出的思路不正确、不一致或不完整,虽在形式上输出思路,但已丧失有效思考能力。
- 决策能力受限:思维能力的丧失极大限制了模型的最终决策能力,难以充分释放模型潜力。
实验表明,即使采用更大的模型或更长的训练时间,思维崩塌现象依然存在。其核心原因在于强化学习的训练机制:
- 环境提供的奖励完全由模型的最终动作决定。
- 比动作输出更长、更基础的思维过程缺乏直接评估与监督,仅能依赖结果奖励进行间接引导。
- 在动作步骤多、状态空间大、复杂度高的任务中,这一问题尤为显著。
这证明了在VLM智能体的强化学习中,对思维过程进行引导至关重要。
2. GTR框架如何避免模型“思维崩塌”?
先前研究已关注过程引导方法,但常见的过程奖励模型(Process Reward Models, PRMs)需要精细标注的多模态数据进行训练,成本高昂且过程繁琐;此外,在固定数据集上训练的PRM容易产生偏差,难以适应动态的交互式环境。
使用VLM进行打分的“VLM-as-a-judge”方法效果亦不理想。简单的数值奖励难以提供充足的信息量和有效指导,尤其考虑到大模型更强的奖励破解(reward hacking)能力。在模型基础能力较弱时,缺乏正向激励还易导致悲观探索问题。

因此,研究需要找到一种足够简单、可规模化且信息量充足的思维引导方式。在GTR框架中,“修正器模型”(corrector model)承担了这一关键角色。

GTR利用一个外部VLM作为修正器。在强化学习的每一步,修正器首先评估智能体思路中识别与推理的正确性;若发现不正确或不一致之处,则基于智能体的当前状态输入对思路进行修正。通过在常规PPO过程中加入一个针对思路token的监督微调(SFT)损失,将智能体的思路与修正器给出的正确结果对齐,从而形成一个“思维+动作”、“SFT+PPO”的联合训练框架。
通过这种方式,强化学习与思维引导得以相互补充。思维引导为训练提供了额外的监督信号,而强化学习通过可验证奖励的反馈,使得修正过程无需依赖专家级外部模型提供高质量参考轨迹,从而让智能体能够突破外部模型的能力上限。
针对在线训练中的样本分布偏移问题,GTR引入了DAgger策略以缓解错误累积。此外,框架还通过为智能体增加格式奖励与重复惩罚、为修正器模型提供工具调用以弥补专业知识等方法,进一步提升了训练数据的质量。
GTR训练过程的伪代码如下:

3. GTR的实验效果
论文在gym_cards和ALFWorld两个常用的VLM智能体测试任务上进行了实验评估。智能体基于LLaVA-7B构建,使用GPT-4o作为修正器进行训练。基线方法包括仅使用强化学习的RL4VLM和仅使用思路引导的方法(SFT-only)。
在gym_cards中最困难的24点纸牌游戏中,GTR在15k训练步数内达到了最高17.5%的成功率,大幅超过了两个基线方法(2.5%、11.0%),甚至超越了其修正器模型GPT-4o的水平(13.5%)。

在思维崩塌现象不显著的另外三个较简单游戏中,GTR相比RL4VLM也能取得性能突破,并达到规模为其10倍的预训练模型的能力水平。

在模拟家用机器人场景的具身智能任务ALFWorld中,为贴近真实环境并防止模型利用额外文本信息绕过视觉决策,实验移除了环境提供的文本观察,模型仅能依赖视觉信息进行决策。结果表明,GTR相比RL4VLM能有效避免思维崩塌导致的性能下降,提升模型决策能力。

消融实验证明了:训练全过程的思维引导至关重要;工具调用对提升修正器专业知识是必要的;DAgger策略能有效缓解在线训练的分布偏移。同时,研究指出,对修正器完整输出进行SFT会限制强化学习的反馈,并使训练易受修正器幻觉(hallucination)的影响。
4. 研究意义与展望
本研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制。通过利用修正器模型进行思路修正,GTR在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合、互为补充,展现出显著的性能优势。
这一创新性的分析与解决方案,也为复杂长时任务中大模型智能体的训练提供了新的启发与可能性。
更多技术细节请参阅原论文。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25474
