轨迹切片

大模型工程

PRGS框架突破离线强化学习瓶颈：从失败轨迹中挖掘“黄金片段”，Transformer性能提升15.8%

离线强化学习（Offline RL）面临一个核心挑战：训练数据集是固定且质量不均的。近年来，以决策Transformer（DT）为代表的基于Transformer的方法，因其将决策建模为条件序列生成而备受关注。然而，这些方法通常以“整条轨迹”作为学习单元：若一条轨迹的最终回报不高，即便其中包含有效的动作或局部成功的片段，其价值也容易被整体的低回报所“稀释”。…

2026年3月14日
276000