在人工智能领域,大语言模型驱动的智能体系统正从单机作战向协同作战演进。近期,来自加州大学圣地亚哥分校和英特尔的研究团队提出的PettingLLMs框架,首次实现了通用的多智能体强化学习训练机制,为群体智能的协同进化开辟了新路径。

**多智能体协同训练的瓶颈与突破**
当前大语言模型智能体已在医疗诊断、代码生成、科学研究及具身智能等多个领域展现出超越单智能体的协同优势。研究表明,未经专门训练的多智能体工作流就能在复杂任务中取得显著性能提升。然而,现有的LLM智能体训练框架,包括已被验证有效的Group Relative Policy Optimization算法,都局限于单智能体训练范畴。多智能体间的协同优化——即“群体强化”机制——始终是亟待解决的核心难题。
GRPO算法的有效性建立在关键假设之上:组内所有候选回答必须基于完全相同的上下文生成。算法通过多次采样生成候选回答,在组内进行相对优势评估,这种评估的公平性完全依赖于上下文的一致性。但在多智能体多轮交互场景中,这一假设被彻底打破。不同智能体在不同轮次接收的提示词存在显著差异——例如编程智能体在第二轮的提示词可能包含原始问题、首轮生成的代码以及其他智能体提供的单元测试。

若简单地将跨轮次、跨智能体的回答视为同一组进行评估,就违反了GRPO的核心假设,导致优势计算基准不统一,评估结果失去公平性和有效性。因此,多智能体强化学习的核心挑战在于:如何在保证组内回答批量的同时,确保优势计算的公平性?
**树状采样与异步训练架构**
研究团队创新性地提出了贪婪搜索的树状采样方法。在每个训练轮次中,每个智能体作为节点生成K个分支,系统实时选择当前奖励最高的智能体进行下一轮分支扩展。这种设计巧妙平衡了探索与利用的权衡:既保证了足够的探索空间,又能够及时利用当前最优策略。每个智能体的奖励函数采用双重设计,既考虑角色专属任务的奖励,又纳入全局任务的协同奖励,确保智能体在提升专业能力的同时强化协作意识。

多智能体系统还面临更深层的策略选择问题:何时应该让智能体进化成各司其职的“专属模型”?何时又该让所有智能体共享“通用模型”?为解决这一难题,团队设计了灵活的异步分发训练系统。

系统中的路由模块负责收集多智能体交互产生的轨迹数据。在专属模型模式下,系统可配置多个独立的模型资源池,每个智能体的数据仅发送给对应的更新单元,实现专业化训练。而在共享模型模式中,所有智能体的数据合并后发送至同一资源池,集中更新通用模型。这种架构设计为不同任务场景提供了最优训练策略选择。
**框架实现与实验验证**
基于上述研究,团队开源了PettingLLMs框架,使多智能体强化学习开发变得简洁高效。开发者只需定义任务特定的智能体交互规则和奖励函数,即可快速搭建训练环境。框架支持不同模型与智能体间的任意映射关系,并允许每个智能体适配不同的LoRA微调模块,为复杂场景提供了高度灵活性。
在推箱子这类长规划任务中,通过AT-GRPO训练,两个智能体的协同性能从14%跃升至96%,展现出惊人的协同进化效果。

研究团队在Qwen3-1.7B和Qwen3-8B两个模型规模上开展了大规模实验,覆盖规划、代码生成和数学推理三大类任务。实验结果显示:在规划任务中,Sokoban任务准确率从14%提升至96%,Plan-Path任务从47%提升至99.5%;代码生成任务中,LiveCodeBench提升6.1%,APPS提升4.2%,CodeContests提升7.0%;数学推理任务中,AIME 24提升9.0%,AIME 25提升17.9%。


消融实验进一步揭示了框架的关键设计价值:仅在单智能体环境中训练,各子角色性能虽有提升(从5.0%提升至11.0%/14.5%),但在多智能体联合任务中仅达到16.0%;将训练完成的两个角色策略互换后,准确率从96.0%暴跌至6.0%,证明智能体习得的是互补且不可替代的专长;训练过程中,智能体的学习回报同步上升,任务所需平均回合数持续下降,显示出日益紧密的协作对齐。

PettingLLMs框架的突破性意义在于,它首次实现了跨任务、跨规模的通用多智能体强化学习算法,为群体智能的协同进化提供了标准化工具。该框架不仅推动了多智能体系统从静态协作向动态进化的转变,更为未来复杂人机协同系统的构建奠定了技术基础。随着开源生态的完善,PettingLLMs有望成为多智能体研究的标准平台,加速人工智能从个体智能向群体智能的范式转变。
论文地址:https://huggingface.co/papers/2510.11062
GitHub仓库:https://github.com/pettingllms-ai/PettingLLMs
— 图片补充 —

关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7906
