PACE

大模型训练

PACE：用参数变化衡量学习进步，UED新方法被ICML 2026接收

在训练强化学习智能体时，一个常见困境是：某些关卡过于简单，智能体只需重复几次就能掌握；而另一些关卡又过于困难，智能体几乎无法从中获得有效反馈。前者仅是在巩固已有能力，后者则会将训练资源浪费在无效探索上。真正有价值的训练环境，往往处于两者之间——它恰好超出智能体当前的能力边界，但又不至于难到完全无法学习。换言之，强化学习训练同样存在一个“最近发展…

16小时前
41000