异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

论文标题：Heterogeneous Agent Collaborative Reinforcement Learning
论文链接：https://arxiv.org/abs/2603.02604
Github Page: https://zzx-peter.github.io/hacrl/
Huggingface: https://huggingface.co/papers/2603.02604

主要贡献

异构协同强化学习（HACRL）新范式：提出了一种新的训练范式，允许多个在参数状态、模型规模乃至架构家族上存在异构性的智能体，在训练阶段共享经过验证的轨迹（rollouts）以实现协同策略优化，而在推理阶段各自独立部署执行。该范式既不同于需要协同执行的多智能体强化学习，也区别于单向的“教师-学生”知识蒸馏。HACRL首次实现了异构智能体间的双向互学与独立部署的统一：训练时协同优化，推理时独立运行。
异构协同策略优化（HACPO）算法：为支持HACRL范式，提出了一种新算法，通过四项关键技术弥合智能体间的能力与策略分布差异。
实验结果：在多个数学推理基准上，所有参与协同训练的异构智能体性能均获得一致提升，平均性能超越基线方法3.3%，同时仅需一半的采样成本，为实现高效的多智能体协同学习指明了新方向。

问题背景：昂贵的“单打独斗”与宝贵的“异构数据”

昂贵的“单打独斗”：当前大模型强化学习微调中，轨迹采样与校验成本是训练流程的核心瓶颈，严重制约效率与规模化落地。现有强化学习微调普遍采用孤立优化范式，模型各自独立采样、验证与更新策略。这导致模型生成的高质量轨迹仅用于自身迭代，宝贵的探索经验无法被复用，样本利用率极低，造成巨大的算力浪费。
宝贵的“异构数据”：当前大模型生态呈现显著的异构性，不同架构、尺寸、状态的模型面向同一任务生成的轨迹，在任务目标与格式上高度兼容，且携带互补知识。然而，现有多智能体强化学习主要针对多智能体组成统一系统进行协同训练与推理，无法支持“训练时协同、推理时独立”的场景；知识蒸馏则主要针对同构或异构模型间的单向知识传递，难以支持异构模型间的双向互学。因此，异构数据在现有范式下的价值未被有效发掘。

论文的核心问题：一个智能体能否利用其他异构智能体生成的轨迹，来同时提升自身性能与训练效率？

异构智能体共享轨迹：HACRL范式

为解决训练过程中模型的“单打独斗”问题，该工作提出了异构协同强化学习（HACRL） 范式。在该范式中，多个异构智能体在训练时可以共享彼此的轨迹（包含回应与奖励），推理时则各自独立完成任务。HACRL使得原本独立的智能体能够互相学习，同时显著提高了轨迹数据的利用率。

HACRL与现有其他范式有本质区别：

不同于多智能体强化学习（MARL）：HACRL强调多个独立的智能体在训练时共享轨迹进行协同优化，但在推理时彼此独立；MARL则要求多个智能体在推理时相互协作。简言之，HACRL训练的是多个独立的模型，而MARL训练的是一个整体的协作系统。
不同于在线/离线知识蒸馏（KD）：HACRL支持多个异构智能体进行双向互学；而知识蒸馏通常是更强的教师模型向更弱的学生模型进行单向知识传递。简言之，HACRL是异构模型间的相互学习，而蒸馏是同构或异构模型间的单向传递。

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署
异构协同强化学习（HACRL）与多智能体强化学习（MARL）、知识蒸馏（KD）的对比

核心算法：HACPO

HACRL的实现并非简单的轨迹共享。由于异构智能体之间存在能力差异和策略分布差异，甚至可能来自不同厂商（分词器不兼容），直接共享数据会面临工程与算法上的挑战。

为此，该工作提出了异构协同策略优化（HACPO） 算法。它在基础的强化学习优化方法之上，引入了四项量身定制的技术，以弥合异构智能体之间的能力与分布差异。理论分析证明，智能体利用自身及其他智能体轨迹进行的梯度更新方向，在期望上具有小于90度的夹角，这从理论上支持了HACPO的有效性。

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署
HACPO算法流程图

1. 智能体能力感知的优势估计

提出了一种能力感知的优势估计器，根据每个智能体的相对性能为其分配不同的组间优势基线。直观上，如果一个回应由更强的智能体生成，其优势应被赋予更高估值；反之则由更弱的智能体生成，则估值应更低。该估计器在理论上是无偏的。

在训练步骤 ( t ) 中，针对智能体 ( i ) 的第 ( j ) 个响应的优势 ( hat{A}{i,j}^{(t)} ) 计算如下：
[
hat{A}{i,j}^{(t)} = R_{i,j}^{(t)} – b_i^{(t)}
]
其中，基线 ( b_i^{(t)} ) 的计算方式为：
[
b_i^{(t)} = frac{sum_{k in mathcal{A}} omega_k^{(t)} cdot bar{R}k^{(t)}}{sum{k in mathcal{A}} omega_k^{(t)}}
]
这里，( omega_k^{(t)} ) 是智能体 ( k ) 在步骤 ( t ) 时的能力比率（基于其平滑准确度计算）。

2. 模型能力差异系数

为了鼓励智能体向更强的同伴学习，同时对较弱的同伴保持策略保守性，该工作使用能力比率 ( omega ) 来调节有效优势。( omega ) 扮演两个互补的角色：
(i) 基线校准：在估计能力感知基线时重新缩放奖励，以对齐异构智能体间的奖励统计量；
(ii) 梯度调制：作为一个类似学习率的因子，放大来自更强智能体的梯度，并衰减来自更弱智能体的梯度。
调制后的优势为：
[
tilde{A}{i,j}^{(t)} = omega_i^{(t)} cdot hat{A}{i,j}^{(t)}
]

3. 指数重要性采样

该工作采用序列级别的重要性比率，并将其扩展到异构多智能体设置，同时引入了非梯度的指数重加权机制。这种设计使智能体更倾向于从那些输出分布与其自身更一致的轨迹中学习。对于分词器不兼容的异构智能体组合，先将轨迹通过源智能体的反分词器还原为文本，再使用目标智能体的分词器重新进行分词。
[
rho_{i leftarrow j}^{(t)} = expleft(-beta cdot text{KL}left(pi_{theta_i^{(t)}} | pi_{theta_j^{(t)}}right)right)
]
其中，( beta ) 控制保守性的程度。

4. 逐步裁剪

跨智能体的重要性采样比率在序列步骤之间和内部都可能不规则波动。为此，首先对跨智能体回应应用非对称裁剪边界，确保跨智能体经验只能被降权，而永远不会被增权。然后，应用逐步裁剪策略，防止跨智能体经验在训练批次内的后期更新中占据主导地位，从而提高训练稳定性。
[
text{clip}(rho, c_{text{step}}) = min(rho, 1 + (c_{text{step}} cdot u))
]
其中，( u ) 表示当前步骤内已执行的参数更新次数，( c_{text{step}} ) 表示每次更新的收紧因子。

实验现象：尺有所短，寸有所长——异构模型间的取长补短

实验设置与对比基线

该工作在MATH数据集上选取了7500道高质量数学问题，并在七个具有挑战性的基准测试上评估HACPO的性能。为严格验证协同训练范式的有效性，将HACPO与下列三类基线方法进行了对比：

标准单智能体基线：包括GRPO、GSPO（轨迹采样成本与HACPO相同，但参数更新成本仅为HACPO的一半）。
等资源基线（GSPO×2）：使用双倍的轨迹采样次数和更新次数，以排除单纯因数据量增大带来的性能提升（轨迹成本是HACPO的一倍，参数更新成本相同）。
朴素协同基线（Naive）：简单共享轨迹的多智能体设置，但不包含HACPO的任何创新模块（轨迹和参数更新成本均与HACPO相同）。

该工作总结了三种异构类型，并分别进行了验证实验：

| 异构类型 | 定义 | 示例 |
| :— | :— | :— |
| 状态异构 | 架构和参数规模相同，但权重不同 | |

异构类型定义

主实验结果与分析

该工作在状态异构、尺寸异构、模型异构三种设定下进行了实验，结果表明了HACPO算法的有效性。其效果主要归因于两种机制：
* 能力驱动的指导：强模型提供更多高质量正确解，帮助弱模型更快提升。
* 互补知识的交换：弱模型作为“不同探索器”，会产生强模型较少覆盖的推理路径与信息性错误，甚至少量强模型未采集到的正确解，从而为强模型提供可学习的补充信号。

状态异构

弱模型（Qwen3-4B-Base）性能提升7.1%，强模型（Qwen3-4B-Instruct）提升1.4%。由于模型同源异构性较低，主要表现为强模型对弱模型的单向指导，弱模型对强模型的帮助有限。

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

尺寸异构

大小模型均有提升，Qwen3-1.7B-Base提升2.6%，Qwen3-4B-Base提升2.3%。尽管小模型准确率较低，但其产生的错误路径和少量正确路径为大模型提供了互补知识。

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

模型异构

即使模型异构程度很高，两个模型也均有提升。Qwen3-4B-Base提升1.9%，Llama3.2-3B-Instruct提升3.9%。这验证了HACPO算法在不同架构模型间的通用性和鲁棒性。

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

效率与效果双提升

与等资源基线（GSPO×2）相比，HACPO仅使用一半的Rollout成本，即实现了3.3%的性能提升。

消融实验

对HACPO算法中的四个核心模块进行了消融实验。结果表明，缺失任一模块都会导致模型性能下降，证明了各模块的有效性。同时，指数重要性采样中的最佳指数值在不同的模型组合上会有所不同。

讨论与展望

本文针对智能体强化学习中孤立优化采样成本高、异构大模型生态知识利用效率低的行业痛点，提出了异构智能体协同强化学习（HACRL）新范式。该范式突破了知识蒸馏单向传递的局限，实现了训练阶段协同优化、推理阶段独立执行的核心设计。

未来，HACRL范式的拓展方向主要包括：
1. 场景拓展：将适用场景从数学推理延伸至代码生成、多模态理解等更广泛的大模型下游任务，验证其普适性。
2. 规模探索：研究更大规模的异构智能体协同训练网络，深入探索智能体间相互学习的效果边界与影响机制。
3. 平台构建：HACPO为跨异构智能体的数据统一复用提供了初步框架。未来，构建跨模型、跨领域的统一知识学习平台，是迈向通用人工智能（AGI）的重要方向。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/26538

异构智能体协同强化学习：打破模型孤岛，实现双向互学与高效部署

主要贡献

问题背景：昂贵的“单打独斗”与宝贵的“异构数据”

异构智能体共享轨迹：HACRL范式

核心算法：HACPO

1. 智能体能力感知的优势估计

2. 模型能力差异系数

3. 指数重要性采样

4. 逐步裁剪

实验现象：尺有所短，寸有所长——异构模型间的取长补短

实验设置与对比基线

异构类型定义

主实验结果与分析

状态异构

尺寸异构

模型异构

效率与效果双提升

消融实验

讨论与展望

相关推荐

MIT颠覆性研究：无需强化学习，随机扰动即可解锁大模型隐藏能力

突破Transformer瓶颈：Bengio团队提出硬件对齐的滑动窗口循环方案，大幅提升LLM效率

清华团队破解FlashAttention低精度训练玄学：BF16下数值偏置如何引爆大模型训练

Meta与ThinkMachine联手突破MoE训练内存墙：MoEBlaze框架实现内存降低4倍、训练加速6倍

SuperOffload：解锁超级芯片潜能，4芯片训练50B模型，吞吐量提升2.5倍，实现55% MFU