PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

 

在训练强化学习智能体时,一个常见困境是:某些关卡过于简单,智能体只需重复几次就能掌握;而另一些关卡又过于困难,智能体几乎无法从中获得有效反馈。前者仅是在巩固已有能力,后者则会将训练资源浪费在无效探索上。真正有价值的训练环境,往往处于两者之间——它恰好超出智能体当前的能力边界,但又不至于难到完全无法学习。换言之,强化学习训练同样存在一个“最近发展区”:高效训练的关键,并非生成更多关卡,而是找到当前阶段最值得学习的关卡。

Unsupervised Environment Design(UED)正是围绕这一挑战展开的。UED不再将训练环境视为固定的数据集,而是通过自动生成、选择或重放关卡,动态塑造训练分布,使智能体在持续学习中获得更强的泛化能力。然而,UED面临一个核心难题:系统需要判断哪些关卡真正推动了智能体的学习。

近日,来自国防科技大学、厦门大学等机构的研究者提出了PACE(Parameter Change Environment Design)。PACE利用关卡诱导的策略参数变化作为训练价值信号,直接衡量该关卡是否带来了实质性的学习进展。该工作已被ICML 2026接收。

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

  • 论文题目:PACE: Parameter Change for Unsupervised Environment Design
  • 论文链接:https://doi.org/10.48550/arXiv.2605.01358

UED:让训练环境自行形成课程

UED的基本理念并不复杂。传统强化学习通常先给定一批训练环境,再让智能体在其中反复学习。但训练环境并非越多越好,也非越难越好。如果关卡过于简单,智能体会迅速进入“舒适区”,仅能巩固已掌握的行为;如果关卡过于困难,智能体又会陷入“恐慌区”,长期得不到有效奖励。这两种情况都会削弱学习效率与最终的泛化能力。

在UED之前,Domain Randomization已证明环境多样性有助于提升泛化能力;但这类方法通常仅是静态地随机采样环境参数,难以根据智能体当前的学习状态动态调整训练内容。

UED进一步将“训练什么”纳入学习过程:系统不再把训练环境视为固定背景,而是动态生成、选择或重放关卡,并根据某种评价信号决定哪些关卡更值得保留、重放或进一步调整。理想情况下,这些关卡应持续贴近智能体当前的能力边界:既不能轻易被解决,也不能完全超出可学习范围。

现有的UED方法通常需要一个评分来评价关卡。常见的做法包括regret、GAE、MaxMC等。这些信号在实践中有效,但它们更多从可解性差距、价值估计误差或回报估计出发,并未评估“这次训练究竟带来了多少策略改进”。另一类方法更为直接,例如Marginal Benefit会比较策略更新前后的表现变化,因此更接近真实的学习进步。但它需要额外的rollout来估计更新前后的回报,计算开销更高,且估计方差也更大。

因此,UED的核心问题就变成了:如何简单而准确地判断一个关卡是否真正推动了智能体的学习?

PACE:用参数变化衡量学习进步

PACE的核心判断非常直接:如果一个关卡真正促进了学习,那么智能体在该关卡上训练后,其策略参数应当发生有意义的变化。也就是说,PACE不再将关卡的价值建立在regret、GAE或Monte Carlo return等间接信号上,而是直接观察该关卡所诱导的策略更新。

首先,对于某个关卡,论文关注的是策略更新前后的目标提升:

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

其中,表示与关卡交互前的策略参数,表示在该关卡上完成一次局部策略更新后的参数。如果直接估计

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

,通常需要分别评估更新前后的策略表现,即进行额外的rollout。这会带来更高的计算开销,并在稀疏奖励或长时程任务中引入较大的估计方差。

PACE选择从优化过程本身入手。在当前参数附近,对目标函数

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

进行一阶泰勒展开:

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

进一步假设这一步更新沿着局部梯度方向进行,即

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

其中,表示学习率。于是有

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

将其代入一阶展开,可得目标提升的近似形式:

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

这个近似关系表明:在局部梯度更新假设下,一个关卡带来的目标提升与其诱导的策略参数变化平方范数成正比。因此,PACE将关卡评分定义为:

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

其中,

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

表示关卡的训练价值。直观地说,如果一个关卡诱导了更大的有效参数更新,它就更可能包含当前策略尚未掌握、但又能够提供学习信号的内容。PACE关注的不是这个关卡看起来有多难,而是它是否真的让策略朝着更优方向前进了一步。

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

图1:PACE工作流程图。

基于这一评分,PACE的运行过程可分为两个部分:关卡评分与策略训练(图1)。

在关卡评分阶段,系统先从关卡生成器中生成一个候选关卡,并用当前策略

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

在该关卡上收集数据。随后,PACE执行一次临时策略更新,得到

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

。这一步仅用于计算评分,并不直接写回当前策略。接着,PACE根据上述公式计算评分。

如果关卡缓冲区尚未填满,PACE将该关卡直接加入;如果缓冲区已满,则当当前关卡的

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

高于缓冲区中最低评分时,用当前关卡替换该低分关卡。这样,缓冲区会持续保留那些更能诱导策略更新的关卡。

在策略训练阶段,PACE从关卡缓冲区中采样关卡,并使用这些关卡正式更新策略参数。采样时,PACE根据评分构建优先级分布,使高分关卡更容易被重放。

整个过程不断交替进行:新关卡被生成并评分,高价值关卡被写入缓冲区,缓冲区中的关卡又被优先重放以训练策略。由此,PACE利用策略参数变化构建了一种内生的学习进步信号,并用它驱动训练课程随智能体能力动态演化。

实验结果:从迷宫泛化到开放式任务

论文在MiniGrid和Craftax上验证了PACE,分别考察其在结构化迷宫中的零样本泛化能力,以及在长时程、非平稳任务中的持续学习能力。对比方法包括DR、PLR、PLR和ACCEL。

在 MiniGrid 环境中,所有方法均基于

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

所示的训练迷宫进行学习,并在测试阶段直接迁移至 12 个未见过的、由人工设计的关卡,期间不进行任何额外微调。该实验设置主要用于评估零样本泛化能力。从图 2 可以看出,在较为简单的 FourRooms 关卡中,各方法均能实现较高的成功率;然而,随着关卡结构日趋复杂,方法间的性能差异开始显著扩大。在更具挑战性的 Labyrinth、Maze3 等关卡上,PACE 不仅展现出更高的成功率,其结果方差也更低。

研究者进一步借助 rliable 库对整体表现进行了评估。表 1 显示,PACE 的 IQM 指标达到 0.964,明显优于最强基线 PLR 的 0.808;其 Optimality Gap 降至 0.172,同样优于 DR、PLR、PLR 和 ACCEL 等方法。这表明 PACE 的性能提升并非仅源于少数特定关卡,而是体现为更稳定的整体泛化能力。

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

图 2:MiniGrid 上的零样本迁移性能。

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

表 1:MiniGrid 上的整体泛化指标。

为了进一步验证 PACE 在更复杂任务中的适用性,论文还在 Craftax 上进行了实验。Craftax 是一个面向开放式强化学习的 JAX 基准测试平台。随着探索进程的推进,智能体会不断遭遇新的区域、机制和目标,任务分布也会持续变化,因此更能检验 UED 方法是否能在长时间训练过程中持续提供有效的课程。

实验遵循 Craftax-1B 设置,训练预算约为次环境交互次数。在评估阶段,研究者在 20 个未见过的 Craftax 关卡上比较了最终策略的 episodic reward。如表 2 所示,PACE 在相同训练预算下取得了最高的评估回报,平均 reward 达到

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

,高于 DR 的

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

,同时也优于 PLR、PLR 和 ACCEL 等方法。

PACE:用参数变化衡量学习进步,UED新方法被ICML 2026接收

表 2:Craftax 上 20 个未见关卡的平均回报和标准差。

结语与展望

在强化学习智能体需要持续适应未见环境的背景下,如何准确识别真正推动学习的关卡,是 UED 的关键问题。PACE 通过参数变化这一简单、低方差、计算友好的内生信号,将环境评价直接建立在 realized learning progress 之上,从而减少了代理指标偏差、高方差估计和额外 rollout 开销的影响,并为构建更稳定、更可扩展的自适应训练课程提供了新的思路。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35861

(0)
上一篇 15小时前
下一篇 15小时前

相关推荐