熵平衡革命：AEPO算法如何破解智能体强化学习的探索-稳定困境

在智能体强化学习（Agentic RL）的快速发展浪潮中，如何在探索潜力与训练稳定之间取得精妙平衡，已成为制约多轮智能体性能提升的核心瓶颈。传统的熵驱动式智能体强化学习方法虽然通过在高不确定性节点触发分支探索来提升推理路径的多样性，但这种依赖单一熵信号的机制在实践中暴露出显著缺陷：过度追求探索往往导致训练过程剧烈震荡，甚至引发策略熵坍塌，使智能体陷入局部最优而难以突破。

针对这一关键挑战，中国人民大学高瓴人工智能学院与快手Klear语言大模型团队的联合研究提出了Agentic Entropy-Balanced Policy Optimization（AEPO）算法。该算法不仅系统性地揭示了现有方法中存在的“高熵Rollout采样坍缩”和“高熵梯度裁剪”两大深层问题，更通过创新的“动态熵平衡Rollout采样”与“熵平衡策略优化”双机制，为多轮智能体的强化学习训练提供了全新的优化范式。

**深度剖析：熵失衡的双重困境与AEPO的破解之道**

研究团队通过量化分析智能体在多轮工具调用强化学习中的训练过程，发现了两个核心的熵变现象，它们共同构成了探索与稳定之间的根本矛盾。

首先，**高熵工具调用具有显著的连续性**。数据分析显示，连续的高熵工具调用轮次占比高达56.5%，部分任务轨迹甚至出现多达6次的连续高熵调用。这种连续性并非探索潜力的均匀分布，而是导致了Rollout阶段采样预算的严重倾斜。传统方法如ARPO，凭经验固定分配全局采样与分支采样的资源，无法应对这种动态的、集聚性的高熵模式。其结果是，计算资源被过度消耗在少数几条轨迹的局部深度探索上，而牺牲了对其他可能更优的完整推理路径的广度探索，即发生了“Rollout采样坍缩”。这本质上是探索资源分配机制的僵化与任务动态不确定性之间的不匹配。

其次，**高熵Token面临梯度困境**。在策略优化阶段，传统Agentic RL算法普遍采用梯度裁剪来稳定训练。然而，这种裁剪往往是“无差别”的，未能区分高熵Token所承载的语义价值。研究指出，许多高熵Token恰恰是激发工具调用、进行关键反思或产生创造性推理步骤的“提示信号”。粗暴地裁剪这些Token的梯度，等同于扼杀了模型学习有价值探索行为的机会，导致智能体变得保守，难以在复杂任务中形成突破性的策略。这就是“高熵梯度裁剪”问题，它使得探索行为在训练中无法得到有效的奖励和固化。

AEPO算法的核心创新，正是针对这两个困境设计了精准的干预机制。

**机制一：动态熵平衡Rollout采样——基于信息增益的智能预算分配**

AEPO摒弃了经验主义的固定预算分配，转而将Rollout采样建模为一个**信息增益最大化**问题。其理论基础在于：在自回归解码过程中，输入问题的不确定性和工具反馈的不确定性共同决定了每一步探索的信息价值。

该机制包含两个精妙设计：

1. **熵预监测与自适应预算分配**：算法首先让模型预生成一条完整的工具调用轨迹，以此监控两个关键熵值——问题的初始熵（H_q）和工具调用的平均熵（H_t）。

随后，AEPO根据熵值对比动态调整全局采样数m（总预算为k）。其分配公式为：m = k * σ(β * (H_t – H_q))。

当问题本身不确定性高（H_q > H_t）时，算法倾向于增加全局采样，鼓励探索不同的完整任务解决路径；当工具反馈不确定性高（H_t > H_q）时，则减少全局采样，将更多预算倾斜至高熵步骤的分支采样，进行聚焦式的局部深度探索。参数β控制对熵差异的敏感度。这一设计使得资源分配从“拍脑袋”变成了“有据可依”。

2. **连续高熵分支惩罚**：为防止资源即使合理分配后，仍因连续高熵导致单一轨迹过度分支，AEPO引入了动态分支概率惩罚。算法实时监测每一步工具调用后的熵变化ΔH，并追踪每条轨迹的连续高熵分支次数C。

分支概率会随着C的增加而动态衰减，从而强制将探索预算分散到更多轨迹上，有效避免了“把所有鸡蛋放在一个篮子里”的风险，确保了探索的广度。

**机制二：熵平衡策略优化——梯度停止与熵感知优势估计**

在策略更新阶段，AEPO旨在保护那些承载探索价值的高熵Token的梯度。它通过两项技术实现：

1. **针对高熵Token的梯度停止（Gradient Stopping）**：算法识别出那些熵值高于阈值、且被判定为包含探索性行为（如工具调用触发）的Token，在计算策略梯度时对其应用梯度停止。这意味着这些Token的梯度不会被后续的裁剪操作影响，从而完整保留了模型从探索行为中学习的能力。

2. **熵感知优势估计（Entropy-Aware Advantage Estimation）**：在计算优势函数时，AEPO融入了熵的考量，对高熵步骤产生的优势值进行重新校准。这确保了那些通过探索（可能暂时效率不高）但最终通向成功或提供信息的路径，能在长期获得更公正的评价和强化，引导智能体在“利用已知”和“探索未知”之间做出更平衡的决策。

**实验验证与广泛影响**

AEPO在14个跨领域基准测试中接受了严格检验，其对比对象涵盖了七种主流强化学习算法。实验数据令人信服地证明了其优越性。

特别是在要求深度搜索和复杂规划的挑战性任务上，AEPO展现出了显著优势。例如，在GAIA基准测试中，其Pass@5指标达到65.0%；在Humanity’s Last Exam任务中为26.0%；在WebWalkerQA任务中高达70.0%。这些成绩不仅超越了基线模型，更重要的是，AEPO在取得高性能的同时，保持了优异的训练稳定性，并显著提升了采样多样性及最终策略的推理效率。

AEPO的成功迅速获得了学术界与工业界的广泛关注。其相关论文已在arXiv上发布，完整的代码、数据及模型均在GitHub和Hugging Face平台开源。

截至目前，该项目在GitHub上已收获超过700颗星标，并曾荣登Hugging Face Paper日榜第二名，充分体现了其技术影响力和社区认可度。

**结论与展望**

AEPO算法的提出，标志着智能体强化学习在方法论上的一次重要演进。它不再将“熵”视为一个需要简单最大化或最小化的单一指标，而是将其作为一个复杂的、需要精细管理的系统状态信号。通过将信息论原理与强化学习优化过程深度融合，AEPO实现了对探索资源的动态、智能分配，以及对探索梯度的针对性保护。这为构建能够在复杂、开放环境中稳定学习、高效探索的通用智能体提供了切实可行的技术路径和新的理论启发。未来，如何将熵平衡的思想进一步扩展到多智能体协作、终身学习等更复杂的场景，将是值得探索的重要方向。