PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

在训练强化学习智能体时，一个常见困境是：某些关卡过于简单，智能体只需重复几次就能掌握；而另一些关卡又过于困难，智能体几乎无法从中获得有效反馈。前者仅是在巩固已有能力，后者则会将训练资源浪费在无效探索上。真正有价值的训练环境，往往处于两者之间——它恰好超出智能体当前的能力边界，但又不至于难到完全无法学习。换言之，强化学习训练同样存在一个“最近发展区”：高效训练的关键，并非生成更多关卡，而是找到当前阶段最值得学习的关卡。

Unsupervised Environment Design（UED）正是围绕这一挑战展开的。UED不再将训练环境视为固定的数据集，而是通过自动生成、选择或重放关卡，动态塑造训练分布，使智能体在持续学习中获得更强的泛化能力。然而，UED面临一个核心难题：系统需要判断哪些关卡真正推动了智能体的学习。

近日，来自国防科技大学、厦门大学等机构的研究者提出了PACE（Parameter Change Environment Design）。PACE利用关卡诱导的策略参数变化作为训练价值信号，直接衡量该关卡是否带来了实质性的学习进展。该工作已被ICML 2026接收。

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

论文题目：PACE: Parameter Change for Unsupervised Environment Design
论文链接：https://doi.org/10.48550/arXiv.2605.01358

UED：让训练环境自行形成课程

UED的基本理念并不复杂。传统强化学习通常先给定一批训练环境，再让智能体在其中反复学习。但训练环境并非越多越好，也非越难越好。如果关卡过于简单，智能体会迅速进入“舒适区”，仅能巩固已掌握的行为；如果关卡过于困难，智能体又会陷入“恐慌区”，长期得不到有效奖励。这两种情况都会削弱学习效率与最终的泛化能力。

在UED之前，Domain Randomization已证明环境多样性有助于提升泛化能力；但这类方法通常仅是静态地随机采样环境参数，难以根据智能体当前的学习状态动态调整训练内容。

UED进一步将“训练什么”纳入学习过程：系统不再把训练环境视为固定背景，而是动态生成、选择或重放关卡，并根据某种评价信号决定哪些关卡更值得保留、重放或进一步调整。理想情况下，这些关卡应持续贴近智能体当前的能力边界：既不能轻易被解决，也不能完全超出可学习范围。

现有的UED方法通常需要一个评分来评价关卡。常见的做法包括regret、GAE、MaxMC等。这些信号在实践中有效，但它们更多从可解性差距、价值估计误差或回报估计出发，并未评估“这次训练究竟带来了多少策略改进”。另一类方法更为直接，例如Marginal Benefit会比较策略更新前后的表现变化，因此更接近真实的学习进步。但它需要额外的rollout来估计更新前后的回报，计算开销更高，且估计方差也更大。

因此，UED的核心问题就变成了：如何简单而准确地判断一个关卡是否真正推动了智能体的学习？

PACE：用参数变化衡量学习进步

PACE的核心判断非常直接：如果一个关卡真正促进了学习，那么智能体在该关卡上训练后，其策略参数应当发生有意义的变化。也就是说，PACE不再将关卡的价值建立在regret、GAE或Monte Carlo return等间接信号上，而是直接观察该关卡所诱导的策略更新。

首先，对于某个关卡，论文关注的是策略更新前后的目标提升：

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

其中，表示与关卡交互前的策略参数，表示在该关卡上完成一次局部策略更新后的参数。如果直接估计

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

，通常需要分别评估更新前后的策略表现，即进行额外的rollout。这会带来更高的计算开销，并在稀疏奖励或长时程任务中引入较大的估计方差。

PACE选择从优化过程本身入手。在当前参数附近，对目标函数

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

进行一阶泰勒展开：

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

进一步假设这一步更新沿着局部梯度方向进行，即

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

其中，表示学习率。于是有

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

将其代入一阶展开，可得目标提升的近似形式：

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

这个近似关系表明：在局部梯度更新假设下，一个关卡带来的目标提升与其诱导的策略参数变化平方范数成正比。因此，PACE将关卡评分定义为：

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

其中，

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

表示关卡的训练价值。直观地说，如果一个关卡诱导了更大的有效参数更新，它就更可能包含当前策略尚未掌握、但又能够提供学习信号的内容。PACE关注的不是这个关卡看起来有多难，而是它是否真的让策略朝着更优方向前进了一步。

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

图1：PACE工作流程图。

基于这一评分，PACE的运行过程可分为两个部分：关卡评分与策略训练（图1）。

在关卡评分阶段，系统先从关卡生成器中生成一个候选关卡，并用当前策略

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

在该关卡上收集数据。随后，PACE执行一次临时策略更新，得到

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

。这一步仅用于计算评分，并不直接写回当前策略。接着，PACE根据上述公式计算评分。

如果关卡缓冲区尚未填满，PACE将该关卡直接加入；如果缓冲区已满，则当当前关卡的

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

高于缓冲区中最低评分时，用当前关卡替换该低分关卡。这样，缓冲区会持续保留那些更能诱导策略更新的关卡。

在策略训练阶段，PACE从关卡缓冲区中采样关卡，并使用这些关卡正式更新策略参数。采样时，PACE根据评分构建优先级分布，使高分关卡更容易被重放。

整个过程不断交替进行：新关卡被生成并评分，高价值关卡被写入缓冲区，缓冲区中的关卡又被优先重放以训练策略。由此，PACE利用策略参数变化构建了一种内生的学习进步信号，并用它驱动训练课程随智能体能力动态演化。

实验结果：从迷宫泛化到开放式任务

论文在MiniGrid和Craftax上验证了PACE，分别考察其在结构化迷宫中的零样本泛化能力，以及在长时程、非平稳任务中的持续学习能力。对比方法包括DR、PLR、PLR和ACCEL。

在 MiniGrid 环境中，所有方法均基于

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

所示的训练迷宫进行学习，并在测试阶段直接迁移至 12 个未见过的、由人工设计的关卡，期间不进行任何额外微调。该实验设置主要用于评估零样本泛化能力。从图 2 可以看出，在较为简单的 FourRooms 关卡中，各方法均能实现较高的成功率；然而，随着关卡结构日趋复杂，方法间的性能差异开始显著扩大。在更具挑战性的 Labyrinth、Maze3 等关卡上，PACE 不仅展现出更高的成功率，其结果方差也更低。

研究者进一步借助 rliable 库对整体表现进行了评估。表 1 显示，PACE 的 IQM 指标达到 0.964，明显优于最强基线 PLR 的 0.808；其 Optimality Gap 降至 0.172，同样优于 DR、PLR、PLR 和 ACCEL 等方法。这表明 PACE 的性能提升并非仅源于少数特定关卡，而是体现为更稳定的整体泛化能力。

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

图 2：MiniGrid 上的零样本迁移性能。

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

表 1：MiniGrid 上的整体泛化指标。

为了进一步验证 PACE 在更复杂任务中的适用性，论文还在 Craftax 上进行了实验。Craftax 是一个面向开放式强化学习的 JAX 基准测试平台。随着探索进程的推进，智能体会不断遭遇新的区域、机制和目标，任务分布也会持续变化，因此更能检验 UED 方法是否能在长时间训练过程中持续提供有效的课程。

实验遵循 Craftax-1B 设置，训练预算约为次环境交互次数。在评估阶段，研究者在 20 个未见过的 Craftax 关卡上比较了最终策略的 episodic reward。如表 2 所示，PACE 在相同训练预算下取得了最高的评估回报，平均 reward 达到

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

，高于 DR 的

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

，同时也优于 PLR、PLR 和 ACCEL 等方法。

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

表 2：Craftax 上 20 个未见关卡的平均回报和标准差。

结语与展望

在强化学习智能体需要持续适应未见环境的背景下，如何准确识别真正推动学习的关卡，是 UED 的关键问题。PACE 通过参数变化这一简单、低方差、计算友好的内生信号，将环境评价直接建立在 realized learning progress 之上，从而减少了代理指标偏差、高方差估计和额外 rollout 开销的影响，并为构建更稳定、更可扩展的自适应训练课程提供了新的思路。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35861

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

相关推荐

SFT到RL之间藏了个大坑：多模态模型后训练被忽视的隐形断层

NCCLbpf：用eBPF为GPU集群通信插上安全与性能的双翼，破解AI训练可靠性难题

MobileRL：突破端侧GUI智能体训练瓶颈，AndroidWorld成功率超80%的强化学习新框架

自我蒸馏的陷阱：为何AI“抄袭”自己思考反而损害数学推理能力？

OpenClaw-RL：让AI越用越聪明的开源框架，北大博士团队破解AI智能体训练难题