清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thought, CoT)决策任务上的能力。然而,对于面向目标导向动作推理任务的多模态大模型(VLM)智能体,强化学习在复杂问题上难以有效提升其决策能力,甚至可能导致思维过程的退化。

来自清华大学、北京大学与腾讯的研究团队深入探究了这一“思维崩塌”(thought collapse)现象。研究发现,由于模型训练反馈仅依赖于最终动作,强化学习无法有效约束CoT思维过程,导致VLM智能体的思维发生退化,丧失多样性,并输出不一致、不完整的推理思路。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

为应对思维崩塌问题,研究团队提出了思维引导的强化学习框架(Guided Thought Reinforcement, GTR)。该框架通过自动化修正器提供过程引导,在强化学习训练中实时优化模型的推理思路,且无需依赖精细的人工标注。在困难的卡牌游戏与具身智能任务中,基于LLaVA-7B的智能体以较小规模实现了相比当前最优方法(SOTA)的显著性能提升。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

  • 论文标题:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
  • 论文链接:https://arxiv.org/pdf/2503.08525

1. “思维崩塌”现象影响RLVR训练效果

与纯文本智能体训练不同,在多模态信息引入和决策流程复杂性增加的交互式视觉环境中,使用强化学习训练VLM智能体更为困难。其中“思维崩塌”现象主要表现为:

  • 思维多样性丧失:智能体的CoT过程失去多样性,对不同视觉与文本输入给出相同或相似的推理思路。
  • 思维质量退化:模型输出的思路不正确、不一致或不完整,虽在形式上输出思路,但已丧失有效思考能力。
  • 决策能力受限:思维能力的丧失极大限制了模型的最终决策能力,难以充分释放模型潜力。

实验表明,即使采用更大的模型或更长的训练时间,思维崩塌现象依然存在。其核心原因在于强化学习的训练机制:

  • 环境提供的奖励完全由模型的最终动作决定。
  • 比动作输出更长、更基础的思维过程缺乏直接评估与监督,仅能依赖结果奖励进行间接引导。
  • 在动作步骤多、状态空间大、复杂度高的任务中,这一问题尤为显著。

这证明了在VLM智能体的强化学习中,对思维过程进行引导至关重要。

2. GTR框架如何避免模型“思维崩塌”?

先前研究已关注过程引导方法,但常见的过程奖励模型(Process Reward Models, PRMs)需要精细标注的多模态数据进行训练,成本高昂且过程繁琐;此外,在固定数据集上训练的PRM容易产生偏差,难以适应动态的交互式环境。

使用VLM进行打分的“VLM-as-a-judge”方法效果亦不理想。简单的数值奖励难以提供充足的信息量和有效指导,尤其考虑到大模型更强的奖励破解(reward hacking)能力。在模型基础能力较弱时,缺乏正向激励还易导致悲观探索问题。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

因此,研究需要找到一种足够简单、可规模化且信息量充足的思维引导方式。在GTR框架中,“修正器模型”(corrector model)承担了这一关键角色。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

GTR利用一个外部VLM作为修正器。在强化学习的每一步,修正器首先评估智能体思路中识别与推理的正确性;若发现不正确或不一致之处,则基于智能体的当前状态输入对思路进行修正。通过在常规PPO过程中加入一个针对思路token的监督微调(SFT)损失,将智能体的思路与修正器给出的正确结果对齐,从而形成一个“思维+动作”、“SFT+PPO”的联合训练框架。

通过这种方式,强化学习与思维引导得以相互补充。思维引导为训练提供了额外的监督信号,而强化学习通过可验证奖励的反馈,使得修正过程无需依赖专家级外部模型提供高质量参考轨迹,从而让智能体能够突破外部模型的能力上限。

针对在线训练中的样本分布偏移问题,GTR引入了DAgger策略以缓解错误累积。此外,框架还通过为智能体增加格式奖励与重复惩罚、为修正器模型提供工具调用以弥补专业知识等方法,进一步提升了训练数据的质量。

GTR训练过程的伪代码如下:

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

3. GTR的实验效果

论文在gym_cardsALFWorld两个常用的VLM智能体测试任务上进行了实验评估。智能体基于LLaVA-7B构建,使用GPT-4o作为修正器进行训练。基线方法包括仅使用强化学习的RL4VLM和仅使用思路引导的方法(SFT-only)。

gym_cards中最困难的24点纸牌游戏中,GTR在15k训练步数内达到了最高17.5%的成功率,大幅超过了两个基线方法(2.5%、11.0%),甚至超越了其修正器模型GPT-4o的水平(13.5%)。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

在思维崩塌现象不显著的另外三个较简单游戏中,GTR相比RL4VLM也能取得性能突破,并达到规模为其10倍的预训练模型的能力水平。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

在模拟家用机器人场景的具身智能任务ALFWorld中,为贴近真实环境并防止模型利用额外文本信息绕过视觉决策,实验移除了环境提供的文本观察,模型仅能依赖视觉信息进行决策。结果表明,GTR相比RL4VLM能有效避免思维崩塌导致的性能下降,提升模型决策能力。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

消融实验证明了:训练全过程的思维引导至关重要;工具调用对提升修正器专业知识是必要的;DAgger策略能有效缓解在线训练的分布偏移。同时,研究指出,对修正器完整输出进行SFT会限制强化学习的反馈,并使训练易受修正器幻觉(hallucination)的影响。

4. 研究意义与展望

本研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制。通过利用修正器模型进行思路修正,GTR在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合、互为补充,展现出显著的性能优势。

这一创新性的分析与解决方案,也为复杂长时任务中大模型智能体的训练提供了新的启发与可能性。

更多技术细节请参阅原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/25474

(0)
上一篇 2026年3月13日 下午12:59
下一篇 2026年3月13日 下午1:03

相关推荐

  • 突破Transformer瓶颈:Bengio团队提出硬件对齐的滑动窗口循环方案,大幅提升LLM效率

    Transformer 架构已经深刻改变了世界,但它并非完美无缺,线性递归(Linear Recurrences)或状态空间模型(SSM)等竞争者正试图在保持模型质量的同时,显著提升计算性能和效率。 然而,现有的线性递归或状态空间模型虽然在理论上具有线性复杂度,但在高性能 GPU 上的实际表现往往不尽如人意,受限于内存带宽和全局同步带来的高昂通信成本。 近日…

    2026年1月7日
    24600
  • SKILL0:小模型也能成为智能体专家!浙大团队提出技能内化新范式

    小模型如何成为智能体专家? 传统上,增强大模型智能体能力常采用“技能增强”范式,即在推理时为其检索并提供相关的结构化技能知识。然而,这一范式对于参数有限的小模型(如3B、7B)而言存在显著局限。 为此,浙江大学联合美团龙猫团队、清华大学的研究者提出了SKILL0框架及技能内化新范式。其核心思想是:让小模型在训练阶段将过程性知识内化到模型参数中,从而在推理时无…

    2026年4月11日
    19000
  • Meta与ThinkMachine联手突破MoE训练内存墙:MoEBlaze框架实现内存降低4倍、训练加速6倍

    关键词: MoEBlaze 、内存墙、MoE 训练 、索引化路由 在当今大模型浪潮中,参数规模已突破万亿,训练成本与内存压力成为制约模型规模继续扩大的关键瓶颈。混合专家模型(Mixture-of-Experts, MoE) 因其能够以稀疏激活的方式实现万亿参数级别的模型训练,已成为大规模语言模型的主流架构之一。 然而,MoE 的稀疏性在降低计算密度的同时,也…

    2026年1月13日
    35500
  • 何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据

    何恺明团队突破性研究:GeoPT用合成动力学预训练,让AI自学物理规律,节省60%仿真数据 静态3D资产缺少动力学信息,而真实的物理仿真标签又极其昂贵——如何高效扩展物理仿真模型的训练? 何恺明团队的最新论文GeoPT 提出了一种新思路。该研究引入了一种名为动力学提升几何预训练 的全新范式,通过合成动力学 将静态几何“提升”到动态空间,使模型能够在无标签数据…

    2026年2月26日
    30600
  • PyTorch torch.compile性能突破:LayerNorm与RMSNorm内核优化,GPU性能提升至SOTA水平

    关键词:torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子,用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上,其内核性能直接决定了整体训练吞吐量。 目前,业界顶尖的归一化内核多依赖于手工深度优化。…

    2026年4月9日
    21000