轨迹切片
-
PRGS框架突破离线强化学习瓶颈:从失败轨迹中挖掘“黄金片段”,Transformer性能提升15.8%
离线强化学习(Offline RL)面临一个核心挑战:训练数据集是固定且质量不均的。近年来,以决策Transformer(DT)为代表的基于Transformer的方法,因其将决策建模为条件序列生成而备受关注。然而,这些方法通常以“整条轨迹”作为学习单元:若一条轨迹的最终回报不高,即便其中包含有效的动作或局部成功的片段,其价值也容易被整体的低回报所“稀释”。…