多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

在人工智能领域,大语言模型驱动的智能体系统正从单机作战向协同作战演进。近期,来自加州大学圣地亚哥分校和英特尔的研究团队提出的PettingLLMs框架,首次实现了通用的多智能体强化学习训练机制,为群体智能的协同进化开辟了新路径。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

**多智能体协同训练的瓶颈与突破**

当前大语言模型智能体已在医疗诊断、代码生成、科学研究及具身智能等多个领域展现出超越单智能体的协同优势。研究表明,未经专门训练的多智能体工作流就能在复杂任务中取得显著性能提升。然而,现有的LLM智能体训练框架,包括已被验证有效的Group Relative Policy Optimization算法,都局限于单智能体训练范畴。多智能体间的协同优化——即“群体强化”机制——始终是亟待解决的核心难题。

GRPO算法的有效性建立在关键假设之上:组内所有候选回答必须基于完全相同的上下文生成。算法通过多次采样生成候选回答,在组内进行相对优势评估,这种评估的公平性完全依赖于上下文的一致性。但在多智能体多轮交互场景中,这一假设被彻底打破。不同智能体在不同轮次接收的提示词存在显著差异——例如编程智能体在第二轮的提示词可能包含原始问题、首轮生成的代码以及其他智能体提供的单元测试。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

若简单地将跨轮次、跨智能体的回答视为同一组进行评估,就违反了GRPO的核心假设,导致优势计算基准不统一,评估结果失去公平性和有效性。因此,多智能体强化学习的核心挑战在于:如何在保证组内回答批量的同时,确保优势计算的公平性?

**树状采样与异步训练架构**

研究团队创新性地提出了贪婪搜索的树状采样方法。在每个训练轮次中,每个智能体作为节点生成K个分支,系统实时选择当前奖励最高的智能体进行下一轮分支扩展。这种设计巧妙平衡了探索与利用的权衡:既保证了足够的探索空间,又能够及时利用当前最优策略。每个智能体的奖励函数采用双重设计,既考虑角色专属任务的奖励,又纳入全局任务的协同奖励,确保智能体在提升专业能力的同时强化协作意识。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体系统还面临更深层的策略选择问题:何时应该让智能体进化成各司其职的“专属模型”?何时又该让所有智能体共享“通用模型”?为解决这一难题,团队设计了灵活的异步分发训练系统。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

系统中的路由模块负责收集多智能体交互产生的轨迹数据。在专属模型模式下,系统可配置多个独立的模型资源池,每个智能体的数据仅发送给对应的更新单元,实现专业化训练。而在共享模型模式中,所有智能体的数据合并后发送至同一资源池,集中更新通用模型。这种架构设计为不同任务场景提供了最优训练策略选择。

**框架实现与实验验证**

基于上述研究,团队开源了PettingLLMs框架,使多智能体强化学习开发变得简洁高效。开发者只需定义任务特定的智能体交互规则和奖励函数,即可快速搭建训练环境。框架支持不同模型与智能体间的任意映射关系,并允许每个智能体适配不同的LoRA微调模块,为复杂场景提供了高度灵活性。

在推箱子这类长规划任务中,通过AT-GRPO训练,两个智能体的协同性能从14%跃升至96%,展现出惊人的协同进化效果。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

研究团队在Qwen3-1.7B和Qwen3-8B两个模型规模上开展了大规模实验,覆盖规划、代码生成和数学推理三大类任务。实验结果显示:在规划任务中,Sokoban任务准确率从14%提升至96%,Plan-Path任务从47%提升至99.5%;代码生成任务中,LiveCodeBench提升6.1%,APPS提升4.2%,CodeContests提升7.0%;数学推理任务中,AIME 24提升9.0%,AIME 25提升17.9%。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

消融实验进一步揭示了框架的关键设计价值:仅在单智能体环境中训练,各子角色性能虽有提升(从5.0%提升至11.0%/14.5%),但在多智能体联合任务中仅达到16.0%;将训练完成的两个角色策略互换后,准确率从96.0%暴跌至6.0%,证明智能体习得的是互补且不可替代的专长;训练过程中,智能体的学习回报同步上升,任务所需平均回合数持续下降,显示出日益紧密的协作对齐。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

PettingLLMs框架的突破性意义在于,它首次实现了跨任务、跨规模的通用多智能体强化学习算法,为群体智能的协同进化提供了标准化工具。该框架不仅推动了多智能体系统从静态协作向动态进化的转变,更为未来复杂人机协同系统的构建奠定了技术基础。随着开源生态的完善,PettingLLMs有望成为多智能体研究的标准平台,加速人工智能从个体智能向群体智能的范式转变。

论文地址:https://huggingface.co/papers/2510.11062

GitHub仓库:https://github.com/pettingllms-ai/PettingLLMs

— 图片补充 —

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/7906

(0)
上一篇 2025年11月8日 上午11:48
下一篇 2025年11月8日 上午11:56

相关推荐

  • 开源模型TOP5,被中国厂商包圆了

    10月,公开数据显示,来自中国的开源大模型已经牢牢占据榜单前五。

    2025年10月15日
    32700
  • 阿里云百炼引领智能体工业化革命:从手工作坊到AI流水线,企业级应用全面升级

    如果 AI 工具早一点出现,我们的很多工作会不会提前几年完成? 近日,整个科技圈都在感叹 AI 工具带来的效率提升。一些硅谷 AI 大厂工程师现身说法,表示在使用了 AI 工具后,项目完成时长被大幅压缩。 谷歌首席工程师、Gemini API 负责人 Jaana Dogan 分享了她使用智能体的经历。有的人甚至认为,如果在读博时就有 Claude Code、…

    2026年1月9日
    23900
  • 美国AI霸权保卫战:从“创世纪行动”到全球算力联盟的全面布局

    在当今全球科技竞争的格局中,人工智能已成为国家战略的核心战场。美国政府近期的一系列举措,特别是代号为“创世纪行动”的战略部署,标志着AI竞赛已从单纯的技术迭代升级为国家意志主导的全面对抗。这一行动不仅涉及政策调整、法律手段,更延伸到地缘政治、产业重组和能源战略等多个维度,展现出美国在AI领域维护霸权的系统性布局。 “创世纪行动”的核心逻辑在于集中力量突破AI…

    2025年11月21日
    18100
  • GPT-5.2突袭Cursor:OpenAI以编程为战场,打响对Gemini 3的反击战

    在人工智能领域竞争白热化的当下,OpenAI与谷歌之间的技术对决已进入关键阶段。近期,开发者社区流传的截图显示,在Cursor IDE的模型下拉菜单中,赫然出现了gpt-5.2和gpt-5.2-thinking的选项,这标志着GPT-5.2可能已悄然上线,而其首战场并非ChatGPT网页端,而是选择了编程集成开发环境Cursor。这一战略部署意味深长:Ope…

    2025年12月11日
    18900
  • OpenHands V1架构重构:构建可组合、可扩展的生产级智能体SDK

    近日,OpenHands开发团队发布了备受关注的软件开发智能体框架OpenHands(GitHub star已超6.4万)的重大更新——OpenHands Software Agent SDK,标志着该框架从V0版本正式演进至V1版本。这一架构重构不仅解决了早期版本的技术瓶颈,更为智能体的大规模生产部署奠定了坚实基础。 **架构重构的深层动因** OpenH…

    2025年11月8日
    17300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注