PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。

针对这一痛点,来自山东大学、中国科学院、理想汽车与清华大学的研究团队联合提出了一种名为PRGS的新框架。

PRGS框架旨在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更具学习价值的子轨迹,用于训练基于Transformer的离线强化学习方法,并在推理阶段进一步避免“糟糕历史”对当前决策的干扰。

在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了多种基线方法,更使Transformer类方法的平均性能提升了15.8%

本论文的第一作者是山东大学通用智能实验室的助理教授徐志伟。他于2024年在中国科学院自动化研究所获得博士学位,研究方向主要为强化学习、多智能体系统以及基于大语言模型的智能体。其博士论文曾获得2025年度中国智能体与多智能体系统优秀博士论文提名。

目前,该论文已被国际顶级机器学习会议ICLR 2026接收。ICLR是机器学习与表示学习领域的国际顶级会议之一,与NeurIPS、ICML并列为人工智能领域最具影响力的学术会议。ICLR 2026共收到近19000篇有效投稿,接收率约为28%。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

  • 论文标题: Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 论文链接: https://openreview.net/pdf?id=7vpehpWnnY

01 痛点:按“整条轨迹”学习,粒度不够细

在离线强化学习中,数据是固定的,无法像在线学习那样通过试错来改进。现有的基于Transformer的方法(如DT)本质上是进行条件序列建模,它们通常以轨迹的“最终回报”为条件来生成动作。

这带来了两个明显的问题:

  • 学习粒度偏粗: 模型只能感知到整条轨迹的整体回报信号,难以区分轨迹内部不同时间段的质量差异。
  • 片段缝合能力缺失: 由于缺乏对局部片段的优化目标,模型很难从多条平庸的轨迹中提取出最优片段,并将其组合成更优的策略。

尽管已有研究尝试通过重采样或加权等方式缓解这些问题,但大多治标不治本,未能深入到时间步级别进行精细化操作。PRGS框架的提出,正是为了打破这一僵局。

02 核心解法:从全局建模到精细化切片

PRGS框架可以理解为一个面向Transformer离线强化学习的数据处理与推理增强框架,其核心包含三个部分:回报估计、贪心切片、推理时自适应截断。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

其核心逻辑类似于人类的学习过程:回顾过去的经历,即使最终结果失败,也要找出其中表现最佳的部分并加以学习。

PRGS框架包含三个环环相扣的模块:

第一步:基于MMD的回报估计器——以分布视角进行更“乐观”的回报估计
PRGS首先需要回答:在一条轨迹内部,哪些时间段更可能带来高回报?为此,研究者引入了基于最大均值差异的回报估计器,用于刻画状态-动作对的潜在回报分布。

与传统的均值预测不同,MMD估计器能够预测状态-动作对的潜在回报分布。通过对该分布进行采样并取Top-n均值,PRGS获得了一个“乐观”的回报估计值。简而言之,它能挖掘出在当前状态下可能达到的最佳结果,而非平均结果。

第二步:贪心子轨迹切片——围绕峰值回报进行递归分割
在获得每个时间步的“乐观回报”估计后,PRGS对单条轨迹执行贪心切片算法:扫描整条轨迹,找到“乐观回报”最高的点——峰值点。
* 首次切片: 以该峰值点为界,将轨迹起点到峰值点的这一段判定为“高质量子轨迹”,直接用于训练Transformer模型。
* 递归切片: 对剩余部分重复上述过程,寻找新的峰值点并继续切片,直至处理完整个轨迹。

这种递归式的贪心策略将长轨迹拆分为一组更短、质量更集中的子轨迹,从而使Transformer在训练过程中能更频繁地接触到“相对高回报”的决策片段。

第三步:自适应历史截断——推理阶段的动态上下文管理
PRGS还考虑了一个实际问题:模型在训练时看到的是从轨迹中段截取出的子轨迹,而在推理时,如果始终将所有历史上下文输入模型,早期的低质量动作可能会干扰后续决策。

为此,PRGS引入了一种自适应历史截断机制:模型在每一步都会评估当前状态的价值。如果发现当前处境比历史记录所显示的更有前景,则表明之前的历史信息不仅无用,反而可能成为负担。此时,模型会“遗忘”部分历史上下文,以更轻量的状态进行后续决策。

03 实验:多场景达到SOTA表现,复杂场景优势显著

研究团队在D4RL(连续控制)、BabyAI(自然语言指令跟随)以及AuctionNet(大规模广告竞价)三个差异显著的基准上进行了测试。

在D4RL场景中表现突出
在经典的MuJoCo和AntMaze任务中,PRGS表现优异。特别是在需要极强“片段缝合能力”的Maze2D-Large迷宫任务中,应用了PRGS的DT模型得分高达127.5,而原始DT模型的得分不足30。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

迷宫任务的可视化结果也显示,通过PRGS提取出的子轨迹精准地覆盖了通往目标的“黄金路径”,几乎剔除了所有无效的探索弯路。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

在真实业务场景中展现潜力
除了学术基准测试,PRGS在AuctionNet(阿里妈妈开源的广告竞价数据集)上也表现出色。相比于基础的行为克隆算法,应用了PRGS增强后的BC算法在多个周期内实现了显著的利润提升。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

04 总结与展望

PRGS的成功证明,在离线强化学习中,数据不仅要“量多”,更要“质精”。

通过MMD回报估计器、贪心切片和自适应截断这一系列技术组合,PRGS成功地使Transformer模型具备了“取其精华,去其糟粕”的能力。这一成果为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25626

(0)
上一篇 2026年3月14日 上午10:56
下一篇 2026年3月14日 上午10:56

相关推荐

  • AI记忆革命:从“白纸”到“大脑”,记忆架构成AI落地新护城河

    一家企业花了七周时间部署AI:第一周,它能精准回答行业分析问题,团队为之欢呼;到了第三周,它开始反复输出已被纠正过的错误结论,因为它“忘记”了之前的修正;第五周,在关键的董事会汇报中,它引用了早已被否定的数据,导致决策出现偏差;第七周,项目被迫暂停,“AI不可信”成为团队共识。问题的根源并非AI不够智能,而在于它每一次交互都像从一张白纸开始。 AI领域正在经…

    2026年3月25日
    52300
  • 开发者都在用:全新的 Python 工作流(uv + Ruff + Pydantic v2)

    现代 Python 技术栈更快、更干净,效率提升 10× —— 这是开发者在 2026 年的升级方式 如果你写 Python 已经有一段时间了,你大概觉得自己的工作流“够用了”。你用 pip,建个 venv,偶尔跑一次 black,然后提交代码。 但我得说一句可能不太舒服的话: 你的工作流已经过时了。 并不是坏了——只是和 2026 年最优秀的 Python…

    2025年12月22日
    40800
  • QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5

    作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…

    2025年12月29日
    41800
  • 淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏

    淘宝AI狼人杀大赛:多智能体博弈平台WhoisSpy.ai如何用大模型重构社交推理游戏(上) 一场令人“汗流浃背”的狼人杀对局正在上演:天崩开局的倒钩狼悍跳预言家、冲锋狼因言多必失、神职阵营掌控全场确保每晚都是平安夜……而最令人惊讶的是,这些高能玩家并非人类,而是由不同大模型驱动的AI智能体(Agent)。 这场颠覆传统游戏体验的AI狼人杀大乱斗,源自淘宝推…

    2025年12月23日
    70700
  • DeepSeek Engram 记忆神话破灭:外部记忆实为“伪负载”,结构优化才是性能关键

    DeepSeek Engram 记忆神话破灭:外部记忆实为“伪负载”,结构优化才是性能关键(上) 关键词:DeepSeek Engram、LLM、外部记忆、 正则化、残差通路 在LLM架构创新中,DeepSeek Engram以“推理与知识分离”为核心主张,凭借外部N-gram记忆表的知识托管、O(1)检索等特性,一度被寄予解决Transformer原生知识…

    2026年4月13日
    41300