PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。

针对这一痛点,来自山东大学、中国科学院、理想汽车与清华大学的研究团队联合提出了一种名为PRGS的新框架。

PRGS框架旨在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更具学习价值的子轨迹,用于训练基于Transformer的离线强化学习方法,并在推理阶段进一步避免“糟糕历史”对当前决策的干扰。

在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了多种基线方法,更使Transformer类方法的平均性能提升了15.8%

本论文的第一作者是山东大学通用智能实验室的助理教授徐志伟。他于2024年在中国科学院自动化研究所获得博士学位,研究方向主要为强化学习、多智能体系统以及基于大语言模型的智能体。其博士论文曾获得2025年度中国智能体与多智能体系统优秀博士论文提名。

目前,该论文已被国际顶级机器学习会议ICLR 2026接收。ICLR是机器学习与表示学习领域的国际顶级会议之一,与NeurIPS、ICML并列为人工智能领域最具影响力的学术会议。ICLR 2026共收到近19000篇有效投稿,接收率约为28%。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

  • 论文标题: Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL
  • 论文链接: https://openreview.net/pdf?id=7vpehpWnnY

01 痛点:按“整条轨迹”学习,粒度不够细

在离线强化学习中,数据是固定的,无法像在线学习那样通过试错来改进。现有的基于Transformer的方法(如DT)本质上是进行条件序列建模,它们通常以轨迹的“最终回报”为条件来生成动作。

这带来了两个明显的问题:

  • 学习粒度偏粗: 模型只能感知到整条轨迹的整体回报信号,难以区分轨迹内部不同时间段的质量差异。
  • 片段缝合能力缺失: 由于缺乏对局部片段的优化目标,模型很难从多条平庸的轨迹中提取出最优片段,并将其组合成更优的策略。

尽管已有研究尝试通过重采样或加权等方式缓解这些问题,但大多治标不治本,未能深入到时间步级别进行精细化操作。PRGS框架的提出,正是为了打破这一僵局。

02 核心解法:从全局建模到精细化切片

PRGS框架可以理解为一个面向Transformer离线强化学习的数据处理与推理增强框架,其核心包含三个部分:回报估计、贪心切片、推理时自适应截断。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

其核心逻辑类似于人类的学习过程:回顾过去的经历,即使最终结果失败,也要找出其中表现最佳的部分并加以学习。

PRGS框架包含三个环环相扣的模块:

第一步:基于MMD的回报估计器——以分布视角进行更“乐观”的回报估计
PRGS首先需要回答:在一条轨迹内部,哪些时间段更可能带来高回报?为此,研究者引入了基于最大均值差异的回报估计器,用于刻画状态-动作对的潜在回报分布。

与传统的均值预测不同,MMD估计器能够预测状态-动作对的潜在回报分布。通过对该分布进行采样并取Top-n均值,PRGS获得了一个“乐观”的回报估计值。简而言之,它能挖掘出在当前状态下可能达到的最佳结果,而非平均结果。

第二步:贪心子轨迹切片——围绕峰值回报进行递归分割
在获得每个时间步的“乐观回报”估计后,PRGS对单条轨迹执行贪心切片算法:扫描整条轨迹,找到“乐观回报”最高的点——峰值点。
* 首次切片: 以该峰值点为界,将轨迹起点到峰值点的这一段判定为“高质量子轨迹”,直接用于训练Transformer模型。
* 递归切片: 对剩余部分重复上述过程,寻找新的峰值点并继续切片,直至处理完整个轨迹。

这种递归式的贪心策略将长轨迹拆分为一组更短、质量更集中的子轨迹,从而使Transformer在训练过程中能更频繁地接触到“相对高回报”的决策片段。

第三步:自适应历史截断——推理阶段的动态上下文管理
PRGS还考虑了一个实际问题:模型在训练时看到的是从轨迹中段截取出的子轨迹,而在推理时,如果始终将所有历史上下文输入模型,早期的低质量动作可能会干扰后续决策。

为此,PRGS引入了一种自适应历史截断机制:模型在每一步都会评估当前状态的价值。如果发现当前处境比历史记录所显示的更有前景,则表明之前的历史信息不仅无用,反而可能成为负担。此时,模型会“遗忘”部分历史上下文,以更轻量的状态进行后续决策。

03 实验:多场景达到SOTA表现,复杂场景优势显著

研究团队在D4RL(连续控制)、BabyAI(自然语言指令跟随)以及AuctionNet(大规模广告竞价)三个差异显著的基准上进行了测试。

在D4RL场景中表现突出
在经典的MuJoCo和AntMaze任务中,PRGS表现优异。特别是在需要极强“片段缝合能力”的Maze2D-Large迷宫任务中,应用了PRGS的DT模型得分高达127.5,而原始DT模型的得分不足30。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

迷宫任务的可视化结果也显示,通过PRGS提取出的子轨迹精准地覆盖了通往目标的“黄金路径”,几乎剔除了所有无效的探索弯路。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

在真实业务场景中展现潜力
除了学术基准测试,PRGS在AuctionNet(阿里妈妈开源的广告竞价数据集)上也表现出色。相比于基础的行为克隆算法,应用了PRGS增强后的BC算法在多个周期内实现了显著的利润提升。

PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%

04 总结与展望

PRGS的成功证明,在离线强化学习中,数据不仅要“量多”,更要“质精”。

通过MMD回报估计器、贪心切片和自适应截断这一系列技术组合,PRGS成功地使Transformer模型具备了“取其精华,去其糟粕”的能力。这一成果为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25626

(0)
上一篇 7小时前
下一篇 7小时前

相关推荐

  • 为什么你的 AI Agent 需要状态回放(以及 MCP 如何解决这个问题)

    引言 随着 AI Agent 日益复杂,在生产环境中管理其状态已成为最关键的挑战之一。当 Agent 需要在多轮交互中保持上下文、从中断的流程中恢复,或对其决策过程进行审计时,传统的无状态架构会失效。这正是状态回放变得必不可少的原因,而模型上下文协议则为此提供了优雅的解决方案。 在这份全面指南中,我们将探讨为何状态管理对 AI Agent 至关重要、它解决了…

    2025年12月29日
    16400
  • 清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架

    给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…

    3天前
    6400
  • 构建智能数据库对话助手:基于RAG的Text-to-SQL聊天机器人实战

    本项目构建了一个由 AI 驱动的聊天机器人,能够将自然语言问题转换为 SQL 查询,并直接从 SQLite 数据库中检索答案。该应用结合了 LangChain、Hugging Face Embeddings 和 Chroma 向量存储,通过检索增强生成(RAG)工作流,将非结构化的用户输入与结构化数据库连接起来,并配备了 FastAPI 后端与 Stream…

    2025年11月4日
    20500
  • GraphRAG革命:知识图谱与向量数据库的协同进化

    Knowledge graphs 和 vector databases 常被定位为彼此竞争的技术,但这种框架忽略了问题的本质。 它们是对立的吗?简短回答:不是。 它们解决的是根本不同的问题。事实上,它们最好的状态是协同,而不是对抗。如果你在构建现代 AI 系统,把它们当作对手是一种设计缺陷。 更好的理解方式是: Knowledge Graph = 结构化大脑…

    2025年12月28日
    18300
  • 从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路

    从BERT到Genie:掩码范式如何铺就通往AGI的世界模型之路 从OpenAI的Sora到Google DeepMind的Genie,2025年无疑是世界模型 (World Model) 的爆发之年。 然而,繁荣的背后是概念的混战:世界模型究竟是什么?是强化学习里用来训练Agent的环境模拟器?是看过所有YouTube视频的预测模型?还是一个能生成无限3D…

    2026年1月1日
    16200