清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thought, CoT)决策任务上的能力。然而,对于面向目标导向动作推理任务的多模态大模型(VLM)智能体,强化学习在复杂问题上难以有效提升其决策能力,甚至可能导致思维过程的退化。

来自清华大学、北京大学与腾讯的研究团队深入探究了这一“思维崩塌”(thought collapse)现象。研究发现,由于模型训练反馈仅依赖于最终动作,强化学习无法有效约束CoT思维过程,导致VLM智能体的思维发生退化,丧失多样性,并输出不一致、不完整的推理思路。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

为应对思维崩塌问题,研究团队提出了思维引导的强化学习框架(Guided Thought Reinforcement, GTR)。该框架通过自动化修正器提供过程引导,在强化学习训练中实时优化模型的推理思路,且无需依赖精细的人工标注。在困难的卡牌游戏与具身智能任务中,基于LLaVA-7B的智能体以较小规模实现了相比当前最优方法(SOTA)的显著性能提升。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

  • 论文标题:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
  • 论文链接:https://arxiv.org/pdf/2503.08525

1. “思维崩塌”现象影响RLVR训练效果

与纯文本智能体训练不同,在多模态信息引入和决策流程复杂性增加的交互式视觉环境中,使用强化学习训练VLM智能体更为困难。其中“思维崩塌”现象主要表现为:

  • 思维多样性丧失:智能体的CoT过程失去多样性,对不同视觉与文本输入给出相同或相似的推理思路。
  • 思维质量退化:模型输出的思路不正确、不一致或不完整,虽在形式上输出思路,但已丧失有效思考能力。
  • 决策能力受限:思维能力的丧失极大限制了模型的最终决策能力,难以充分释放模型潜力。

实验表明,即使采用更大的模型或更长的训练时间,思维崩塌现象依然存在。其核心原因在于强化学习的训练机制:

  • 环境提供的奖励完全由模型的最终动作决定。
  • 比动作输出更长、更基础的思维过程缺乏直接评估与监督,仅能依赖结果奖励进行间接引导。
  • 在动作步骤多、状态空间大、复杂度高的任务中,这一问题尤为显著。

这证明了在VLM智能体的强化学习中,对思维过程进行引导至关重要。

2. GTR框架如何避免模型“思维崩塌”?

先前研究已关注过程引导方法,但常见的过程奖励模型(Process Reward Models, PRMs)需要精细标注的多模态数据进行训练,成本高昂且过程繁琐;此外,在固定数据集上训练的PRM容易产生偏差,难以适应动态的交互式环境。

使用VLM进行打分的“VLM-as-a-judge”方法效果亦不理想。简单的数值奖励难以提供充足的信息量和有效指导,尤其考虑到大模型更强的奖励破解(reward hacking)能力。在模型基础能力较弱时,缺乏正向激励还易导致悲观探索问题。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

因此,研究需要找到一种足够简单、可规模化且信息量充足的思维引导方式。在GTR框架中,“修正器模型”(corrector model)承担了这一关键角色。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

GTR利用一个外部VLM作为修正器。在强化学习的每一步,修正器首先评估智能体思路中识别与推理的正确性;若发现不正确或不一致之处,则基于智能体的当前状态输入对思路进行修正。通过在常规PPO过程中加入一个针对思路token的监督微调(SFT)损失,将智能体的思路与修正器给出的正确结果对齐,从而形成一个“思维+动作”、“SFT+PPO”的联合训练框架。

通过这种方式,强化学习与思维引导得以相互补充。思维引导为训练提供了额外的监督信号,而强化学习通过可验证奖励的反馈,使得修正过程无需依赖专家级外部模型提供高质量参考轨迹,从而让智能体能够突破外部模型的能力上限。

针对在线训练中的样本分布偏移问题,GTR引入了DAgger策略以缓解错误累积。此外,框架还通过为智能体增加格式奖励与重复惩罚、为修正器模型提供工具调用以弥补专业知识等方法,进一步提升了训练数据的质量。

GTR训练过程的伪代码如下:

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

3. GTR的实验效果

论文在gym_cardsALFWorld两个常用的VLM智能体测试任务上进行了实验评估。智能体基于LLaVA-7B构建,使用GPT-4o作为修正器进行训练。基线方法包括仅使用强化学习的RL4VLM和仅使用思路引导的方法(SFT-only)。

gym_cards中最困难的24点纸牌游戏中,GTR在15k训练步数内达到了最高17.5%的成功率,大幅超过了两个基线方法(2.5%、11.0%),甚至超越了其修正器模型GPT-4o的水平(13.5%)。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

在思维崩塌现象不显著的另外三个较简单游戏中,GTR相比RL4VLM也能取得性能突破,并达到规模为其10倍的预训练模型的能力水平。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

在模拟家用机器人场景的具身智能任务ALFWorld中,为贴近真实环境并防止模型利用额外文本信息绕过视觉决策,实验移除了环境提供的文本观察,模型仅能依赖视觉信息进行决策。结果表明,GTR相比RL4VLM能有效避免思维崩塌导致的性能下降,提升模型决策能力。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

消融实验证明了:训练全过程的思维引导至关重要;工具调用对提升修正器专业知识是必要的;DAgger策略能有效缓解在线训练的分布偏移。同时,研究指出,对修正器完整输出进行SFT会限制强化学习的反馈,并使训练易受修正器幻觉(hallucination)的影响。

4. 研究意义与展望

本研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制。通过利用修正器模型进行思路修正,GTR在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合、互为补充,展现出显著的性能优势。

这一创新性的分析与解决方案,也为复杂长时任务中大模型智能体的训练提供了新的启发与可能性。

更多技术细节请参阅原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25474

(0)
上一篇 2026年3月13日 下午12:59
下一篇 2026年3月13日 下午1:03

相关推荐

  • 清华团队破解FlashAttention低精度训练玄学:BF16下数值偏置如何引爆大模型训练

    一句话总结:困扰社区多年的一个“玄学”现象终于被拆解清楚:在BF16等低精度训练中,FlashAttention并非随机出错,而是在特定条件下会触发有方向的数值偏置。这种偏置借助注意力机制中涌现的相似低秩更新方向被持续放大,最终导致权重谱范数和激活值失控,引发损失函数突然爆炸。论文同时提供了一个几乎无需修改模型、仅在safe softmax中进行的极小改动,…

    2026年3月4日
    81600
  • 强化学习云:大模型训练下半场的新引擎与基础设施革命

    2024年底,硅谷和北京的业界人士都在讨论同一个令人不安的话题:Scaling Law似乎正在撞墙。 当时,尽管英伟达的股价仍在飙升,但多方信源显示,包括备受期待的Orion(原计划的GPT-5)在内,新一代旗舰模型在单纯增加参数规模和训练数据后,并未展现出预期的边际效益提升。同时,也有研究认为高质量预训练数据将很快耗尽,甚至预测了明确的时间节点:2028年…

    2026年1月12日
    25300
  • 2026年LLM微调全指南:从基础概念到实战应用的完整路径

    这不是一篇“速读”文章,但如果你能读到最后,作为一名 AI 从业者,你将掌握对 LLM 进行 Finetuning 所需的全部核心知识。当然,本文无法涵盖所有细节;对各个概念、方法与工具的详略安排,均基于其重要性与相关性。 LLM finetuning 是什么?LLM(Large Language Model)是在海量通用文本上预训练的语言模型。➡ LLM …

    2026年1月4日
    58101
  • Tinker革新大模型训练:从“作坊炼丹”到“工业微调”的API革命

    当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab 推出 Tinker 时,它为大模型训练带来了一种范式革新。Tinker 将复杂的训练过程抽象为前向传播、反向传播、优化器更新等一系列基础原语,从而将算法设计与分布式训练基础设施解耦。这使得训练大模型变得如同调用函数一样简单,标志着行业正从“作坊式炼丹”向…

    2026年1月7日
    34600
  • PyTorch torch.compile性能突破:LayerNorm与RMSNorm内核优化,GPU性能提升至SOTA水平

    关键词:torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子,用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上,其内核性能直接决定了整体训练吞吐量。 目前,业界顶尖的归一化内核多依赖于手工深度优化。…

    2026年4月9日
    25900