2024年末,一篇题为《流式深度强化学习终于跑通了》的论文(arXiv:2410.14606)在学术界激起波澜。该研究出自阿尔伯塔大学Mahmood团队,作者们用大量篇幅揭示了一个尴尬的现实:强化学习作为一种天然适合“边学边做”的方法,在深度神经网络时代却几乎无法实现这一点。一旦移除回放缓冲区,或将批量大小设为1,训练过程便会彻底崩溃。他们称之为“流式壁垒”(stream barrier)。
该论文提出的StreamX系列算法,通过精细调校的超参数、稀疏初始化及多种稳定化技术,勉强突破了这一障碍。
然而,不到一年半后,同一课题组的成员,与来自Openmind研究院的合作者,给出了一个截然不同的解释:流式壁垒的根源并非“数据不足”,而是“步长选错了单位”。

- 论文标题:Intentional Updates for Streaming Reinforcement Learning
- 论文地址:https://arxiv.org/pdf/2604.19033v1
- 代码库:https://github.com/sharifnassab/Intentional_RL
一脚油门,开出了多大的坑
想象你正在学习驾车入库。教练告诉你每次“踩油门0.1秒”。问题在于,同样的0.1秒,在上坡、下坡、空载或满载时,车辆前进的距离可能天壤之别。有时差一厘米恰好入库,有时差30厘米直接撞墙。
传统梯度学习的步长,正是如此:它规定了参数每次移动的幅度,但对函数输出究竟改变了多少,却毫无掌控。在批量训练中,成百上千个样本的误差相互平均,极端情况被稀释,问题并不显著。但在“流式”环境下,每一步只有一个样本,毫无平均可言。一旦梯度方向不稳定,更新幅度便会忽大忽小——今天前进30厘米,明天后退50厘米,学习过程在剧烈震荡中崩溃。
这种“过冲与欠冲”现象在强化学习中尤为突出,因为每个时间步的梯度不仅幅度各异,方向也在高速变化。
重新定义“一步该做多少”
来自Openmind研究院的Arsalan Sharifnassab,与阿尔伯塔大学的Mohamed Elsayed、A. Rupam Mahmood和Richard Sutton等人,在近日发表的论文中提出了一种另辟蹊径的方案:与其指定参数移动多少,不如直接指定函数输出该改变多少。
这一想法并非凭空产生。1967年,日本学者Nagumo和Noda在论文《A learning method for system identification》中,于自适应滤波领域提出了“归一化最小均方差”(NLMS)算法;其本质也是用期望的输出变化来反推步长,而非相反。只不过该算法仅适用于简单的线性场景。
研究者们将这一思路推广至深度强化学习,称之为“意图更新”(Intentional Updates):每次更新前,先明确“我希望这一步实现什么”,然后反推出应使用的步长。
对于价值学习(即预测未来奖励),他们定义的意图是:每次更新后,当前状态的价值预测误差应缩小一个固定比例——例如缩小5%,不多不少。对于策略学习(即优化决策行为),他们定义的意图是:当前动作的选择概率,每一步只允许改变一个“适度”的量。
用驾车的比喻来说:这好比司机在每次操作前先决定“我要让车向前移动20厘米”,然后根据当前路况(坡度、载重)自动计算该踩多深的油门,而不是每次都踩同样的深度听天由命。
图灵奖得主与他的拼图
论文的署名之一,是Richard S. Sutton——2024年图灵奖得主,被广泛誉为“现代强化学习之父”。
Sutton在学界的地位,大约相当于物理学界的费曼:他不仅提出了时间差分学习(TD learning)和策略梯度(policy gradient)这两个现代强化学习的基础框架,还与Andrew Barto合著了该领域最权威的教材《Reinforcement Learning: An Introduction》(现已出至第二版,可免费在线阅读)。他与Barto于2024年共享图灵奖,奖项评语是“为强化学习奠定了概念与算法基础”。
获奖后,Sutton并未选择退休,而是将奖金投入创立的Openmind研究院,专门资助那些愿意在“不受商业化压迫的环境下探索基础问题”的年轻研究者。这篇新论文,正是来自这家非营利机构。
而论文一作Sharifnassab,此前刚刚在ICML 2025发表了MetaOptimize框架,研究如何在线自动调整学习率。两个课题的关注点高度一致:如何让步长本身变得更智能。
算法细节:比想象中简洁
“意图更新”的数学推导并不复杂,其核心公式可用一句话描述:步长等于“期望的输出变化量”除以“梯度方向对输出的实际影响力”。
在价值学习中,这个“实际影响力”就是梯度向量的范数(相当于衡量当前参数区域有多“陡”):越陡的地方步长越小,越平的地方步长越大,从而保证每次更新对价值函数的冲击保持一致。
在策略学习中,“期望变化量”被定义为与优势函数成比例:当前动作比平均水平好多少,策略就往那个方向动多少——通过一个跑动平均来归一化量级,确保长期下来策略改变的幅度稳定在一个可解释的范围。
研究者还将这一核心思想与两个工程实践结合:RMSProp风格的对角缩放(处理不同参数维度量级差异)和资格迹(eligibility traces,帮助奖励信号向过去时间步传播)。
最终形成三个完整算法:用于价值预测的Intentional TD (λ)、用于离散动作控制的Intentional Q (λ),以及用于连续控制的Intentional Policy Gradient。



实验结果:不靠GPU也能打平SAC
论文在多个标准基准上评估了这套方法,结果令人印象深刻。
在MuJoCo连续控制任务(包括Ant、Humanoid、HalfCheetah等复杂仿真机器人)上,新方法Intentional AC在流式设置下(批量大小=1,无回放缓冲区)的最终性能,多次接近甚至比肩SAC——一个使用大批量回放缓冲区、几乎是当前连续控制任务黄金标准的算法。而在计算量上,每次Intentional AC更新所需的浮点运算,只有一次SAC更新的约1/140。

在Atari和MinAtar离散动作游戏上,Intentional Q-learning的表现同样与使用回放缓冲区的DQN相当,且用同一套超参数设置跑通了全部任务,无需逐个调参。


研究者还专门验证了“意图”是否真的被实现了:他们测量了实际更新量与预期更新量的比值。在禁用资格迹的简化设置下,这个比值的标准差仅为0.016到0.029,99分位数均在1.07以内;意味着绝大多数时候,更新确实做到了“说好要做多少就做多少”。
此外,一组消融实验表明,去掉RMSProp归一化或者σ项之后,性能有所下降但仍然有竞争力,而这个“意图缩放”本身是首要贡献者,其他组件都是辅助。

问题还是有的
鲁棒性优势与未解难题
「意图更新」框架在鲁棒性方面同样表现出显著优势。当研究人员逐一剥离 StreamX 方法所依赖的各类稳定化辅助技巧(如稀疏初始化、奖励缩放、输入归一化及 LayerNorm)时,Intentional AC 的性能退化幅度远小于原始 StreamAC。这充分表明,意图缩放机制从根源上降低了对这些外部「支撑手段」的依赖。
然而,论文也坦承了一个尚未彻底攻克的问题:在策略学习过程中,步长依赖于当前采样的动作,这会导致不同动作被隐性赋予各异的「权重」,从而可能改变策略梯度的期望方向。在 Humanoid 和 HumanoidStandup 任务中,通过测量期望更新方向的余弦相似度,研究者发现这种偏差在关键学习阶段接近 0.96(几乎可忽略);但在 Ant-v4 任务中,对齐度降至中位数 0.63,说明该问题并非总能被忽视。
作者指出,未来的研究应致力于探索与动作无关的步长选择策略,使「意图」在期望意义下也能保持无偏性。这为该方向上的后续工作明确了攻关目标。
结语:让 AI 像人类一样在行动中学习
当前主流的大模型训练范式,依赖于海量数据的批量消化:将互联网上的文字和代码全部输入,反复迭代,最终涌现出令人惊叹的能力。这条路线已被证明行之有效,但其本质是「先学后用」——一旦训练完成,模型便冻结,无法从后续每一次实际交互中持续更新。
流式强化学习所追求的,是另一种截然不同的学习模式:不依赖海量回放,不依赖庞大 GPU 集群,每一步经历都即时转化为参数更新,实现持续、廉价且自适应的学习。这更接近人类和动物真实的学习方式。
从 Elsayed 等人 2024 年「终于跑通」的初步突破,到这篇论文提出的「意图更新」原则,流式深度强化学习正以令人意外的速度走向成熟。它不会取代批量训练的大模型,但对于需要长期在线适应的机器人、边缘设备,以及任何无法承受大规模回放缓冲区和 GPU 集群的应用场景,这条路线正变得越来越有说服力。
步长不只是一个超参数,它是 AI 每一步「想做多少」的承诺。当这个承诺终于变得可控,学习本身也就稳定了。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/33971

