离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。
针对这一痛点,来自山东大学、中国科学院、理想汽车与清华大学的研究团队联合提出了一种名为PRGS的新框架。
PRGS框架旨在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更具学习价值的子轨迹,用于训练基于Transformer的离线强化学习方法,并在推理阶段进一步避免“糟糕历史”对当前决策的干扰。
在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了多种基线方法,更使Transformer类方法的平均性能提升了15.8%。
本论文的第一作者是山东大学通用智能实验室的助理教授徐志伟。他于2024年在中国科学院自动化研究所获得博士学位,研究方向主要为强化学习、多智能体系统以及基于大语言模型的智能体。其博士论文曾获得2025年度中国智能体与多智能体系统优秀博士论文提名。
目前,该论文已被国际顶级机器学习会议ICLR 2026接收。ICLR是机器学习与表示学习领域的国际顶级会议之一,与NeurIPS、ICML并列为人工智能领域最具影响力的学术会议。ICLR 2026共收到近19000篇有效投稿,接收率约为28%。

- 论文标题: Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
- 论文链接: https://openreview.net/pdf?id=7vpehpWnnY
01 痛点:按“整条轨迹”学习,粒度不够细
在离线强化学习中,数据是固定的,无法像在线学习那样通过试错来改进。现有的基于Transformer的方法(如DT)本质上是进行条件序列建模,它们通常以轨迹的“最终回报”为条件来生成动作。
这带来了两个明显的问题:
- 学习粒度偏粗: 模型只能感知到整条轨迹的整体回报信号,难以区分轨迹内部不同时间段的质量差异。
- 片段缝合能力缺失: 由于缺乏对局部片段的优化目标,模型很难从多条平庸的轨迹中提取出最优片段,并将其组合成更优的策略。
尽管已有研究尝试通过重采样或加权等方式缓解这些问题,但大多治标不治本,未能深入到时间步级别进行精细化操作。PRGS框架的提出,正是为了打破这一僵局。
02 核心解法:从全局建模到精细化切片
PRGS框架可以理解为一个面向Transformer离线强化学习的数据处理与推理增强框架,其核心包含三个部分:回报估计、贪心切片、推理时自适应截断。

其核心逻辑类似于人类的学习过程:回顾过去的经历,即使最终结果失败,也要找出其中表现最佳的部分并加以学习。
PRGS框架包含三个环环相扣的模块:
第一步:基于MMD的回报估计器——以分布视角进行更“乐观”的回报估计
PRGS首先需要回答:在一条轨迹内部,哪些时间段更可能带来高回报?为此,研究者引入了基于最大均值差异的回报估计器,用于刻画状态-动作对的潜在回报分布。
与传统的均值预测不同,MMD估计器能够预测状态-动作对的潜在回报分布。通过对该分布进行采样并取Top-n均值,PRGS获得了一个“乐观”的回报估计值。简而言之,它能挖掘出在当前状态下可能达到的最佳结果,而非平均结果。
第二步:贪心子轨迹切片——围绕峰值回报进行递归分割
在获得每个时间步的“乐观回报”估计后,PRGS对单条轨迹执行贪心切片算法:扫描整条轨迹,找到“乐观回报”最高的点——峰值点。
* 首次切片: 以该峰值点为界,将轨迹起点到峰值点的这一段判定为“高质量子轨迹”,直接用于训练Transformer模型。
* 递归切片: 对剩余部分重复上述过程,寻找新的峰值点并继续切片,直至处理完整个轨迹。
这种递归式的贪心策略将长轨迹拆分为一组更短、质量更集中的子轨迹,从而使Transformer在训练过程中能更频繁地接触到“相对高回报”的决策片段。
第三步:自适应历史截断——推理阶段的动态上下文管理
PRGS还考虑了一个实际问题:模型在训练时看到的是从轨迹中段截取出的子轨迹,而在推理时,如果始终将所有历史上下文输入模型,早期的低质量动作可能会干扰后续决策。
为此,PRGS引入了一种自适应历史截断机制:模型在每一步都会评估当前状态的价值。如果发现当前处境比历史记录所显示的更有前景,则表明之前的历史信息不仅无用,反而可能成为负担。此时,模型会“遗忘”部分历史上下文,以更轻量的状态进行后续决策。
03 实验:多场景达到SOTA表现,复杂场景优势显著
研究团队在D4RL(连续控制)、BabyAI(自然语言指令跟随)以及AuctionNet(大规模广告竞价)三个差异显著的基准上进行了测试。
在D4RL场景中表现突出
在经典的MuJoCo和AntMaze任务中,PRGS表现优异。特别是在需要极强“片段缝合能力”的Maze2D-Large迷宫任务中,应用了PRGS的DT模型得分高达127.5,而原始DT模型的得分不足30。

迷宫任务的可视化结果也显示,通过PRGS提取出的子轨迹精准地覆盖了通往目标的“黄金路径”,几乎剔除了所有无效的探索弯路。

在真实业务场景中展现潜力
除了学术基准测试,PRGS在AuctionNet(阿里妈妈开源的广告竞价数据集)上也表现出色。相比于基础的行为克隆算法,应用了PRGS增强后的BC算法在多个周期内实现了显著的利润提升。

04 总结与展望
PRGS的成功证明,在离线强化学习中,数据不仅要“量多”,更要“质精”。
通过MMD回报估计器、贪心切片和自适应截断这一系列技术组合,PRGS成功地使Transformer模型具备了“取其精华,去其糟粕”的能力。这一成果为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25626
