PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。

针对这一痛点,来自山东大学、中国科学院、理想汽车与清华大学的研究团队联合提出了一种名为PRGS的新框架。

PRGS框架旨在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更具学习价值的子轨迹,用于训练基于Transformer的离线强化学习方法,并在推理阶段进一步避免“糟糕历史”对当前决策的干扰。

在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了多种基线方法,更使Transformer类方法的平均性能提升了15.8%

本论文的第一作者是山东大学通用智能实验室的助理教授徐志伟。他于2024年在中国科学院自动化研究所获得博士学位,研究方向主要为强化学习、多智能体系统以及基于大语言模型的智能体。其博士论文曾获得2025年度中国智能体与多智能体系统优秀博士论文提名。

目前,该论文已被国际顶级机器学习会议ICLR 2026接收。ICLR是机器学习与表示学习领域的国际顶级会议之一,与NeurIPS、ICML并列为人工智能领域最具影响力的学术会议。ICLR 2026共收到近19000篇有效投稿,接收率约为28%。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

  • 论文标题: Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 论文链接: https://openreview.net/pdf?id=7vpehpWnnY

01 痛点:按“整条轨迹”学习,粒度不够细

在离线强化学习中,数据是固定的,无法像在线学习那样通过试错来改进。现有的基于Transformer的方法(如DT)本质上是进行条件序列建模,它们通常以轨迹的“最终回报”为条件来生成动作。

这带来了两个明显的问题:

  • 学习粒度偏粗: 模型只能感知到整条轨迹的整体回报信号,难以区分轨迹内部不同时间段的质量差异。
  • 片段缝合能力缺失: 由于缺乏对局部片段的优化目标,模型很难从多条平庸的轨迹中提取出最优片段,并将其组合成更优的策略。

尽管已有研究尝试通过重采样或加权等方式缓解这些问题,但大多治标不治本,未能深入到时间步级别进行精细化操作。PRGS框架的提出,正是为了打破这一僵局。

02 核心解法:从全局建模到精细化切片

PRGS框架可以理解为一个面向Transformer离线强化学习的数据处理与推理增强框架,其核心包含三个部分:回报估计、贪心切片、推理时自适应截断。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

其核心逻辑类似于人类的学习过程:回顾过去的经历,即使最终结果失败,也要找出其中表现最佳的部分并加以学习。

PRGS框架包含三个环环相扣的模块:

第一步:基于MMD的回报估计器——以分布视角进行更“乐观”的回报估计
PRGS首先需要回答:在一条轨迹内部,哪些时间段更可能带来高回报?为此,研究者引入了基于最大均值差异的回报估计器,用于刻画状态-动作对的潜在回报分布。

与传统的均值预测不同,MMD估计器能够预测状态-动作对的潜在回报分布。通过对该分布进行采样并取Top-n均值,PRGS获得了一个“乐观”的回报估计值。简而言之,它能挖掘出在当前状态下可能达到的最佳结果,而非平均结果。

第二步:贪心子轨迹切片——围绕峰值回报进行递归分割
在获得每个时间步的“乐观回报”估计后,PRGS对单条轨迹执行贪心切片算法:扫描整条轨迹,找到“乐观回报”最高的点——峰值点。
* 首次切片: 以该峰值点为界,将轨迹起点到峰值点的这一段判定为“高质量子轨迹”,直接用于训练Transformer模型。
* 递归切片: 对剩余部分重复上述过程,寻找新的峰值点并继续切片,直至处理完整个轨迹。

这种递归式的贪心策略将长轨迹拆分为一组更短、质量更集中的子轨迹,从而使Transformer在训练过程中能更频繁地接触到“相对高回报”的决策片段。

第三步:自适应历史截断——推理阶段的动态上下文管理
PRGS还考虑了一个实际问题:模型在训练时看到的是从轨迹中段截取出的子轨迹,而在推理时,如果始终将所有历史上下文输入模型,早期的低质量动作可能会干扰后续决策。

为此,PRGS引入了一种自适应历史截断机制:模型在每一步都会评估当前状态的价值。如果发现当前处境比历史记录所显示的更有前景,则表明之前的历史信息不仅无用,反而可能成为负担。此时,模型会“遗忘”部分历史上下文,以更轻量的状态进行后续决策。

03 实验:多场景达到SOTA表现,复杂场景优势显著

研究团队在D4RL(连续控制)、BabyAI(自然语言指令跟随)以及AuctionNet(大规模广告竞价)三个差异显著的基准上进行了测试。

在D4RL场景中表现突出
在经典的MuJoCo和AntMaze任务中,PRGS表现优异。特别是在需要极强“片段缝合能力”的Maze2D-Large迷宫任务中,应用了PRGS的DT模型得分高达127.5,而原始DT模型的得分不足30。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

迷宫任务的可视化结果也显示,通过PRGS提取出的子轨迹精准地覆盖了通往目标的“黄金路径”,几乎剔除了所有无效的探索弯路。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

在真实业务场景中展现潜力
除了学术基准测试,PRGS在AuctionNet(阿里妈妈开源的广告竞价数据集)上也表现出色。相比于基础的行为克隆算法,应用了PRGS增强后的BC算法在多个周期内实现了显著的利润提升。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

04 总结与展望

PRGS的成功证明,在离线强化学习中,数据不仅要“量多”,更要“质精”。

通过MMD回报估计器、贪心切片和自适应截断这一系列技术组合,PRGS成功地使Transformer模型具备了“取其精华,去其糟粕”的能力。这一成果为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/25626

(0)
上一篇 2026年3月14日 上午10:56
下一篇 2026年3月14日 上午10:56

相关推荐

  • 工具文档质量成AI智能体瓶颈?ICLR 2026新研究:简单文档扩展即可显著提升工具检索性能

    在大模型时代,工具调用(Tool-Use)已成为智能体能力的核心。从代码生成到复杂API调用,大语言模型正在学会使用各类工具。然而,一个日益凸显的现实问题是:工具真的难找。 来自宁波东方理工大学/宁波数字孪生研究院沈晓宇团队的一项研究,在ICLR 2026发表论文《Tools Are Under-Documented: Simple Document Exp…

    2026年3月18日
    31400
  • Vibe Coding革新AI Infra:文本驱动设计文档破解复杂系统开发难题

    Andrej Karpathy 力荐的 Vibe Coding 正成为开发者的新宠。这种“只需聊一聊,AI 就能把功能写出来”的体验,极大地提升了简单任务的开发效率。 然而,当我们将目光转向实际的复杂系统,特别是 AI 基础设施(AI Infra)领域时,Vibe Coding 往往会陷入“水土不服”的困境。 总结下来,主要有三方面问题: 上下文丢失:对话历…

    2026年1月7日
    34100
  • GraphRAG深度解析:融合Neo4j与LangChain,构建下一代知识增强型LLM系统

    LLM 已从根本上改变了我们与数据交互、自动化推理以及构建智能系统的方式。然而,尽管其生成式能力令人印象深刻,LLM 天生并不理解关系、结构或长期的事实一致性。这一缺陷在我们尝试将 LLM 用于企业级知识系统、多跳推理或决策关键型应用时尤为明显。 这正是图数据库与 RAG 结合之处,二者共同为 AI 系统形成一种新的架构范式——将符号推理与神经生成相融合。 …

    2025年12月27日
    49100
  • LLM与强化学习融合:开启智能推荐新纪元,首篇系统性综述发布

    强化学习(RL)将推荐系统建模为序列决策过程,支持长期效益和非连续指标的优化,是推荐系统领域的主流建模范式之一。然而,传统 RL 推荐系统受困于状态建模难、动作空间大、奖励设计复杂、反馈稀疏延迟及模拟环境失真等瓶颈。近期,大语言模型(LLM)的崛起带来了新机遇。LLM 凭借常识储备、推理能力和语义天赋,不仅能让智能体更懂用户,还能充当高保真的环境模拟器。LL…

    2026年3月3日
    36400
  • A2UI协议:开启AI原生交互新时代,让智能体“说”出动态界面

    Google 最近开源了一个名为 A2UI 的项目,旨在解决一个实际问题:AI 智能体如何安全地生成丰富的用户界面? 传统上,智能体只能返回文本,用户需要通过多轮对话才能完成任务。而 A2UI 允许智能体直接生成表单、按钮、日期选择器等交互式组件,用户只需点击几下即可完成操作。 从固定界面到动态生成的转变 传统的智能体交互主要基于文字聊天——用户提问,AI …

    2025年12月25日
    76200