多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

在人工智能领域,大语言模型驱动的智能体系统正从单机作战向协同作战演进。近期,来自加州大学圣地亚哥分校和英特尔的研究团队提出的PettingLLMs框架,首次实现了通用的多智能体强化学习训练机制,为群体智能的协同进化开辟了新路径。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

**多智能体协同训练的瓶颈与突破**

当前大语言模型智能体已在医疗诊断、代码生成、科学研究及具身智能等多个领域展现出超越单智能体的协同优势。研究表明,未经专门训练的多智能体工作流就能在复杂任务中取得显著性能提升。然而,现有的LLM智能体训练框架,包括已被验证有效的Group Relative Policy Optimization算法,都局限于单智能体训练范畴。多智能体间的协同优化——即“群体强化”机制——始终是亟待解决的核心难题。

GRPO算法的有效性建立在关键假设之上:组内所有候选回答必须基于完全相同的上下文生成。算法通过多次采样生成候选回答,在组内进行相对优势评估,这种评估的公平性完全依赖于上下文的一致性。但在多智能体多轮交互场景中,这一假设被彻底打破。不同智能体在不同轮次接收的提示词存在显著差异——例如编程智能体在第二轮的提示词可能包含原始问题、首轮生成的代码以及其他智能体提供的单元测试。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

若简单地将跨轮次、跨智能体的回答视为同一组进行评估,就违反了GRPO的核心假设,导致优势计算基准不统一,评估结果失去公平性和有效性。因此,多智能体强化学习的核心挑战在于:如何在保证组内回答批量的同时,确保优势计算的公平性?

**树状采样与异步训练架构**

研究团队创新性地提出了贪婪搜索的树状采样方法。在每个训练轮次中,每个智能体作为节点生成K个分支,系统实时选择当前奖励最高的智能体进行下一轮分支扩展。这种设计巧妙平衡了探索与利用的权衡:既保证了足够的探索空间,又能够及时利用当前最优策略。每个智能体的奖励函数采用双重设计,既考虑角色专属任务的奖励,又纳入全局任务的协同奖励,确保智能体在提升专业能力的同时强化协作意识。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体系统还面临更深层的策略选择问题:何时应该让智能体进化成各司其职的“专属模型”?何时又该让所有智能体共享“通用模型”?为解决这一难题,团队设计了灵活的异步分发训练系统。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

系统中的路由模块负责收集多智能体交互产生的轨迹数据。在专属模型模式下,系统可配置多个独立的模型资源池,每个智能体的数据仅发送给对应的更新单元,实现专业化训练。而在共享模型模式中,所有智能体的数据合并后发送至同一资源池,集中更新通用模型。这种架构设计为不同任务场景提供了最优训练策略选择。

**框架实现与实验验证**

基于上述研究,团队开源了PettingLLMs框架,使多智能体强化学习开发变得简洁高效。开发者只需定义任务特定的智能体交互规则和奖励函数,即可快速搭建训练环境。框架支持不同模型与智能体间的任意映射关系,并允许每个智能体适配不同的LoRA微调模块,为复杂场景提供了高度灵活性。

在推箱子这类长规划任务中,通过AT-GRPO训练,两个智能体的协同性能从14%跃升至96%,展现出惊人的协同进化效果。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

研究团队在Qwen3-1.7B和Qwen3-8B两个模型规模上开展了大规模实验,覆盖规划、代码生成和数学推理三大类任务。实验结果显示:在规划任务中,Sokoban任务准确率从14%提升至96%,Plan-Path任务从47%提升至99.5%;代码生成任务中,LiveCodeBench提升6.1%,APPS提升4.2%,CodeContests提升7.0%;数学推理任务中,AIME 24提升9.0%,AIME 25提升17.9%。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

消融实验进一步揭示了框架的关键设计价值:仅在单智能体环境中训练,各子角色性能虽有提升(从5.0%提升至11.0%/14.5%),但在多智能体联合任务中仅达到16.0%;将训练完成的两个角色策略互换后,准确率从96.0%暴跌至6.0%,证明智能体习得的是互补且不可替代的专长;训练过程中,智能体的学习回报同步上升,任务所需平均回合数持续下降,显示出日益紧密的协作对齐。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

PettingLLMs框架的突破性意义在于,它首次实现了跨任务、跨规模的通用多智能体强化学习算法,为群体智能的协同进化提供了标准化工具。该框架不仅推动了多智能体系统从静态协作向动态进化的转变,更为未来复杂人机协同系统的构建奠定了技术基础。随着开源生态的完善,PettingLLMs有望成为多智能体研究的标准平台,加速人工智能从个体智能向群体智能的范式转变。

论文地址:https://huggingface.co/papers/2510.11062

GitHub仓库:https://github.com/pettingllms-ai/PettingLLMs

— 图片补充 —

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7906

(0)
上一篇 2025年11月8日 上午11:48
下一篇 2025年11月8日 上午11:56

相关推荐

  • SDAR:打破大模型推理瓶颈的协同扩散-自回归新范式

    在人工智能技术飞速发展的今天,大语言模型(LLM)已成为推动产业变革的核心引擎。然而,随着模型规模的不断扩大和应用场景的日益复杂,一个根本性挑战日益凸显:自回归(AR)模型的串行推理模式导致生成速度缓慢、服务成本高昂,严重制约了其在实时交互、大规模部署等场景下的应用潜力。近日,上海人工智能实验室联合多所高校的研究团队提出了一种革命性的解决方案——SDAR(S…

    2025年11月1日
    100
  • 循环语言模型Ouro:在预训练中构建推理能力的新范式

    在人工智能领域,大型语言模型(LLM)的发展正面临一个关键瓶颈:传统的训练范式通常将复杂的推理能力留待微调阶段培养,而未能充分利用预训练数据中的潜在逻辑结构。这种分离不仅限制了模型在基础阶段的认知深度,也增加了后期优化的成本和不确定性。近日,字节Seed团队联合多家研究机构推出的Ouro(循环语言模型,LoopLM),通过创新的架构设计和训练策略,成功将推理…

    2025年11月4日
    200
  • Lovart与Nano Banana Pro强强联合:AI设计Agent如何重塑创意工作流

    在AI技术快速迭代的浪潮中,设计领域正迎来一场深刻的变革。近日,全球首个设计Agent——Lovart正式接入Nano Banana Pro,这一合作不仅标志着两个AI顶流技术的深度融合,更可能彻底颠覆传统设计行业的运作模式。从测试阶段5天排队10万人,到正式上线仅两个多月ARR突破3000万美元、DAU冲至20万,Lovart在设计垂类AI应用中已然成为现…

    2025年11月24日
    200
  • 从通用到专业:Libcom工作台如何重塑图像合成领域的精准编辑范式

    在2025年AIGC技术持续爆发的浪潮中,图像生成与编辑已成为数字内容创作的核心驱动力。从社交媒体的个性化头像到电商平台的动态海报,再到影视行业的预可视化分镜,AI生成内容正以前所未有的速度渗透至日常创作的各个环节。以Nano Banana、Qwen Edit为代表的通用图像编辑大模型凭借其强大的泛化能力,覆盖了从基础修图到复杂场景构建的广泛需求。特别是Na…

    2025年11月25日
    300
  • Valve三款硬件齐发:Steam生态闭环成型,VR市场迎来新变量

    在科技巨头纷纷转向AI眼镜的当下,Valve(俗称V社)于今日宣布推出三款全新硬件设备:VR头显Steam Frame、游戏主机Steam Machine和手柄Steam Controller,预计2026年初正式上市。这一动作不仅标志着Valve时隔六年重返VR硬件市场,更意味着其正在构建一个从软件平台到硬件终端的完整生态闭环。 作为本次发布的核心产品,S…

    2025年11月13日
    200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注