PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

离线强化学习（Offline RL）面临一个核心挑战：训练数据集是固定且质量不均的。近年来，以决策Transformer（DT）为代表的基于Transformer的方法，因其将决策建模为条件序列生成而备受关注。然而，这些方法通常以“整条轨迹”作为学习单元：若一条轨迹的最终回报不高，即便其中包含有效的动作或局部成功的片段，其价值也容易被整体的低回报所“稀释”。

针对这一痛点，来自山东大学、中国科学院、理想汽车与清华大学的研究团队联合提出了一种名为PRGS的新框架。

PRGS框架旨在不改变离线数据来源的前提下，从原始轨迹中自动筛选出更具学习价值的子轨迹，用于训练基于Transformer的离线强化学习方法，并在推理阶段进一步避免“糟糕历史”对当前决策的干扰。

在D4RL、BabyAI等主流基准测试中，PRGS不仅超越了多种基线方法，更使Transformer类方法的平均性能提升了15.8%。

本论文的第一作者是山东大学通用智能实验室的助理教授徐志伟。他于2024年在中国科学院自动化研究所获得博士学位，研究方向主要为强化学习、多智能体系统以及基于大语言模型的智能体。其博士论文曾获得2025年度中国智能体与多智能体系统优秀博士论文提名。

目前，该论文已被国际顶级机器学习会议ICLR 2026接收。ICLR是机器学习与表示学习领域的国际顶级会议之一，与NeurIPS、ICML并列为人工智能领域最具影响力的学术会议。ICLR 2026共收到近19000篇有效投稿，接收率约为28%。

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

论文标题： Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
论文链接： https://openreview.net/pdf?id=7vpehpWnnY

01 痛点：按“整条轨迹”学习，粒度不够细

在离线强化学习中，数据是固定的，无法像在线学习那样通过试错来改进。现有的基于Transformer的方法（如DT）本质上是进行条件序列建模，它们通常以轨迹的“最终回报”为条件来生成动作。

这带来了两个明显的问题：

学习粒度偏粗： 模型只能感知到整条轨迹的整体回报信号，难以区分轨迹内部不同时间段的质量差异。
片段缝合能力缺失： 由于缺乏对局部片段的优化目标，模型很难从多条平庸的轨迹中提取出最优片段，并将其组合成更优的策略。

尽管已有研究尝试通过重采样或加权等方式缓解这些问题，但大多治标不治本，未能深入到时间步级别进行精细化操作。PRGS框架的提出，正是为了打破这一僵局。

02 核心解法：从全局建模到精细化切片

PRGS框架可以理解为一个面向Transformer离线强化学习的数据处理与推理增强框架，其核心包含三个部分：回报估计、贪心切片、推理时自适应截断。

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

其核心逻辑类似于人类的学习过程：回顾过去的经历，即使最终结果失败，也要找出其中表现最佳的部分并加以学习。

PRGS框架包含三个环环相扣的模块：

第一步：基于MMD的回报估计器——以分布视角进行更“乐观”的回报估计
PRGS首先需要回答：在一条轨迹内部，哪些时间段更可能带来高回报？为此，研究者引入了基于最大均值差异的回报估计器，用于刻画状态-动作对的潜在回报分布。

与传统的均值预测不同，MMD估计器能够预测状态-动作对的潜在回报分布。通过对该分布进行采样并取Top-n均值，PRGS获得了一个“乐观”的回报估计值。简而言之，它能挖掘出在当前状态下可能达到的最佳结果，而非平均结果。

第二步：贪心子轨迹切片——围绕峰值回报进行递归分割
在获得每个时间步的“乐观回报”估计后，PRGS对单条轨迹执行贪心切片算法：扫描整条轨迹，找到“乐观回报”最高的点——峰值点。
* 首次切片： 以该峰值点为界，将轨迹起点到峰值点的这一段判定为“高质量子轨迹”，直接用于训练Transformer模型。
* 递归切片： 对剩余部分重复上述过程，寻找新的峰值点并继续切片，直至处理完整个轨迹。

这种递归式的贪心策略将长轨迹拆分为一组更短、质量更集中的子轨迹，从而使Transformer在训练过程中能更频繁地接触到“相对高回报”的决策片段。

第三步：自适应历史截断——推理阶段的动态上下文管理
PRGS还考虑了一个实际问题：模型在训练时看到的是从轨迹中段截取出的子轨迹，而在推理时，如果始终将所有历史上下文输入模型，早期的低质量动作可能会干扰后续决策。

为此，PRGS引入了一种自适应历史截断机制：模型在每一步都会评估当前状态的价值。如果发现当前处境比历史记录所显示的更有前景，则表明之前的历史信息不仅无用，反而可能成为负担。此时，模型会“遗忘”部分历史上下文，以更轻量的状态进行后续决策。

03 实验：多场景达到SOTA表现，复杂场景优势显著

研究团队在D4RL（连续控制）、BabyAI（自然语言指令跟随）以及AuctionNet（大规模广告竞价）三个差异显著的基准上进行了测试。

在D4RL场景中表现突出
在经典的MuJoCo和AntMaze任务中，PRGS表现优异。特别是在需要极强“片段缝合能力”的Maze2D-Large迷宫任务中，应用了PRGS的DT模型得分高达127.5，而原始DT模型的得分不足30。

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

迷宫任务的可视化结果也显示，通过PRGS提取出的子轨迹精准地覆盖了通往目标的“黄金路径”，几乎剔除了所有无效的探索弯路。

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

在真实业务场景中展现潜力
除了学术基准测试，PRGS在AuctionNet（阿里妈妈开源的广告竞价数据集）上也表现出色。相比于基础的行为克隆算法，应用了PRGS增强后的BC算法在多个周期内实现了显著的利润提升。

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

04 总结与展望

PRGS的成功证明，在离线强化学习中，数据不仅要“量多”，更要“质精”。

通过MMD回报估计器、贪心切片和自适应截断这一系列技术组合，PRGS成功地使Transformer模型具备了“取其精华，去其糟粕”的能力。这一成果为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25626

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

01 痛点：按“整条轨迹”学习，粒度不够细

02 核心解法：从全局建模到精细化切片

03 实验：多场景达到SOTA表现，复杂场景优势显著

04 总结与展望

相关推荐

告别并行编程烦恼：Joblib如何让Python多进程变得优雅高效

揭秘大模型幻觉根源：清华大学发现“讨好神经元”H-Neurons

Context7架构革命：子代理架构如何将AI上下文消耗降低65%？

揭秘AI Agent、MCP、Skills：2026年Agentic AI三大核心如何协同驱动智能决策与执行

北航开源Code2Bench：双扩展动态评测，终结代码大模型高分幻觉