清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的’思维崩塌’难题

论文第一作者为清华大学在读博士生魏彤,研究方向为大模型智能体与强化学习,导师为兴军亮、史元春;共同一作为腾讯杨一君;合作者为北京大学卢宗青;通讯作者为叶德珩。

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Reward, RLVR)能够有效提升大语言模型(LLMs)在思维链(Chain-of-Thought, CoT)决策任务上的能力。然而,对于面向目标导向动作推理任务的多模态大模型(VLM)智能体,强化学习在复杂问题上难以有效提升其决策能力,甚至可能导致思维过程的退化。

来自清华大学、北京大学与腾讯的研究团队深入探究了这一“思维崩塌”(thought collapse)现象。研究发现,由于模型训练反馈仅依赖于最终动作,强化学习无法有效约束CoT思维过程,导致VLM智能体的思维发生退化,丧失多样性,并输出不一致、不完整的推理思路。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

为应对思维崩塌问题,研究团队提出了思维引导的强化学习框架(Guided Thought Reinforcement, GTR)。该框架通过自动化修正器提供过程引导,在强化学习训练中实时优化模型的推理思路,且无需依赖精细的人工标注。在困难的卡牌游戏与具身智能任务中,基于LLaVA-7B的智能体以较小规模实现了相比当前最优方法(SOTA)的显著性能提升。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

  • 论文标题:GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training
  • 论文链接:https://arxiv.org/pdf/2503.08525

1. “思维崩塌”现象影响RLVR训练效果

与纯文本智能体训练不同,在多模态信息引入和决策流程复杂性增加的交互式视觉环境中,使用强化学习训练VLM智能体更为困难。其中“思维崩塌”现象主要表现为:

  • 思维多样性丧失:智能体的CoT过程失去多样性,对不同视觉与文本输入给出相同或相似的推理思路。
  • 思维质量退化:模型输出的思路不正确、不一致或不完整,虽在形式上输出思路,但已丧失有效思考能力。
  • 决策能力受限:思维能力的丧失极大限制了模型的最终决策能力,难以充分释放模型潜力。

实验表明,即使采用更大的模型或更长的训练时间,思维崩塌现象依然存在。其核心原因在于强化学习的训练机制:

  • 环境提供的奖励完全由模型的最终动作决定。
  • 比动作输出更长、更基础的思维过程缺乏直接评估与监督,仅能依赖结果奖励进行间接引导。
  • 在动作步骤多、状态空间大、复杂度高的任务中,这一问题尤为显著。

这证明了在VLM智能体的强化学习中,对思维过程进行引导至关重要。

2. GTR框架如何避免模型“思维崩塌”?

先前研究已关注过程引导方法,但常见的过程奖励模型(Process Reward Models, PRMs)需要精细标注的多模态数据进行训练,成本高昂且过程繁琐;此外,在固定数据集上训练的PRM容易产生偏差,难以适应动态的交互式环境。

使用VLM进行打分的“VLM-as-a-judge”方法效果亦不理想。简单的数值奖励难以提供充足的信息量和有效指导,尤其考虑到大模型更强的奖励破解(reward hacking)能力。在模型基础能力较弱时,缺乏正向激励还易导致悲观探索问题。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

因此,研究需要找到一种足够简单、可规模化且信息量充足的思维引导方式。在GTR框架中,“修正器模型”(corrector model)承担了这一关键角色。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

GTR利用一个外部VLM作为修正器。在强化学习的每一步,修正器首先评估智能体思路中识别与推理的正确性;若发现不正确或不一致之处,则基于智能体的当前状态输入对思路进行修正。通过在常规PPO过程中加入一个针对思路token的监督微调(SFT)损失,将智能体的思路与修正器给出的正确结果对齐,从而形成一个“思维+动作”、“SFT+PPO”的联合训练框架。

通过这种方式,强化学习与思维引导得以相互补充。思维引导为训练提供了额外的监督信号,而强化学习通过可验证奖励的反馈,使得修正过程无需依赖专家级外部模型提供高质量参考轨迹,从而让智能体能够突破外部模型的能力上限。

针对在线训练中的样本分布偏移问题,GTR引入了DAgger策略以缓解错误累积。此外,框架还通过为智能体增加格式奖励与重复惩罚、为修正器模型提供工具调用以弥补专业知识等方法,进一步提升了训练数据的质量。

GTR训练过程的伪代码如下:

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

3. GTR的实验效果

论文在gym_cardsALFWorld两个常用的VLM智能体测试任务上进行了实验评估。智能体基于LLaVA-7B构建,使用GPT-4o作为修正器进行训练。基线方法包括仅使用强化学习的RL4VLM和仅使用思路引导的方法(SFT-only)。

gym_cards中最困难的24点纸牌游戏中,GTR在15k训练步数内达到了最高17.5%的成功率,大幅超过了两个基线方法(2.5%、11.0%),甚至超越了其修正器模型GPT-4o的水平(13.5%)。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

在思维崩塌现象不显著的另外三个较简单游戏中,GTR相比RL4VLM也能取得性能突破,并达到规模为其10倍的预训练模型的能力水平。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

在模拟家用机器人场景的具身智能任务ALFWorld中,为贴近真实环境并防止模型利用额外文本信息绕过视觉决策,实验移除了环境提供的文本观察,模型仅能依赖视觉信息进行决策。结果表明,GTR相比RL4VLM能有效避免思维崩塌导致的性能下降,提升模型决策能力。

清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题 清华北大腾讯联合研究:GTR框架破解VLM智能体训练中的'思维崩塌'难题

消融实验证明了:训练全过程的思维引导至关重要;工具调用对提升修正器专业知识是必要的;DAgger策略能有效缓解在线训练的分布偏移。同时,研究指出,对修正器完整输出进行SFT会限制强化学习的反馈,并使训练易受修正器幻觉(hallucination)的影响。

4. 研究意义与展望

本研究揭示了多模态大模型智能体强化学习训练中,思维崩塌现象对训练稳定性和性能提升的限制。通过利用修正器模型进行思路修正,GTR在无需数据标注的条件下实现了实时自动化的思维过程监督,使过程引导与强化学习有机结合、互为补充,展现出显著的性能优势。

这一创新性的分析与解决方案,也为复杂长时任务中大模型智能体的训练提供了新的启发与可能性。

更多技术细节请参阅原论文。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25474

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • ReVision突破:无需图文配对,几何对齐解锁多模态大模型预训练新范式

    无需图文配对,几何对齐解锁多模态大模型预训练新范式 在多模态大模型(MLLM)的研发中,一个长期共识是:没有图文对(Image-Text Pairs),就没有多模态能力。为了训练模型理解图像,业界通常需要耗费巨资收集海量图片,并为每张图片生成高质量的文本描述。这种强监督的配对数据,一直被视为多模态训练的基石。 然而,来自港科大(广州)、新加坡国立大学等机构的…

    2026年3月3日
    8900
  • 8元跑通RL全流程!潞晨云微调SDK:算法与Infra解耦,1人顶替整支团队

    大模型下半场的战火,已经从“暴力预训练”烧向了“后训练”战场。 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了“炼…

    2026年1月7日
    14100
  • Meta突破AI自主瓶颈:SSR自对弈框架让智能体摆脱人类数据依赖

    “超级智能”是 Meta 长期坚持的宏大愿景。为了加速实现这一目标,Meta 的研究部门正经历着深刻的变革。尽管前 FAIR 负责人 Yann LeCun 曾对某些实现路径表示质疑,但构建一个能够超越人类专家水平的自主 AI 智能体,无疑是人工智能领域最具雄心的前沿目标之一。 在众多落地领域中,编程是 AI 智能体执行任务的代表性场景。当前,基于大语言模型(…

    2026年1月2日
    19700
  • 超越语言建模:Meta与纽约大学探索统一多模态预训练,让AI直接理解现实世界

    基础模型的能力爆发,源于海量文本的预训练。然而,文本只是人类对现实世界的一种抽象表达,是信息的有损压缩。 借用柏拉图的“洞穴寓言”:语言模型擅长描述墙壁上的影子,却从未见过投射影子的实体。它们精于捕捉符号,却难以理解物理世界中高保真的规律、结构与因果。 除了这一哲学局限,还存在一个现实瓶颈:高质量文本数据有限,且正逐渐枯竭。相比之下,视觉世界提供了近乎无限的…

    6天前
    6100
  • MobileRL:突破端侧GUI智能体训练瓶颈,AndroidWorld成功率超80%的强化学习新框架

    关键词:MobileRL框架、端侧GUI智能体、强化学习、ADAGRPO算法、Android基准测试 MobileRL: Online Agentic Reinforcement Learning for Mobile GUI Agents https://arxiv.org/pdf/2509.18119 代码:https://github.com/THUD…

    2026年1月6日
    14100