多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

在人工智能领域,大语言模型驱动的智能体系统正从单机作战向协同作战演进。近期,来自加州大学圣地亚哥分校和英特尔的研究团队提出的PettingLLMs框架,首次实现了通用的多智能体强化学习训练机制,为群体智能的协同进化开辟了新路径。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

**多智能体协同训练的瓶颈与突破**

当前大语言模型智能体已在医疗诊断、代码生成、科学研究及具身智能等多个领域展现出超越单智能体的协同优势。研究表明,未经专门训练的多智能体工作流就能在复杂任务中取得显著性能提升。然而,现有的LLM智能体训练框架,包括已被验证有效的Group Relative Policy Optimization算法,都局限于单智能体训练范畴。多智能体间的协同优化——即“群体强化”机制——始终是亟待解决的核心难题。

GRPO算法的有效性建立在关键假设之上:组内所有候选回答必须基于完全相同的上下文生成。算法通过多次采样生成候选回答,在组内进行相对优势评估,这种评估的公平性完全依赖于上下文的一致性。但在多智能体多轮交互场景中,这一假设被彻底打破。不同智能体在不同轮次接收的提示词存在显著差异——例如编程智能体在第二轮的提示词可能包含原始问题、首轮生成的代码以及其他智能体提供的单元测试。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

若简单地将跨轮次、跨智能体的回答视为同一组进行评估,就违反了GRPO的核心假设,导致优势计算基准不统一,评估结果失去公平性和有效性。因此,多智能体强化学习的核心挑战在于:如何在保证组内回答批量的同时,确保优势计算的公平性?

**树状采样与异步训练架构**

研究团队创新性地提出了贪婪搜索的树状采样方法。在每个训练轮次中,每个智能体作为节点生成K个分支,系统实时选择当前奖励最高的智能体进行下一轮分支扩展。这种设计巧妙平衡了探索与利用的权衡:既保证了足够的探索空间,又能够及时利用当前最优策略。每个智能体的奖励函数采用双重设计,既考虑角色专属任务的奖励,又纳入全局任务的协同奖励,确保智能体在提升专业能力的同时强化协作意识。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体系统还面临更深层的策略选择问题:何时应该让智能体进化成各司其职的“专属模型”?何时又该让所有智能体共享“通用模型”?为解决这一难题,团队设计了灵活的异步分发训练系统。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

系统中的路由模块负责收集多智能体交互产生的轨迹数据。在专属模型模式下,系统可配置多个独立的模型资源池,每个智能体的数据仅发送给对应的更新单元,实现专业化训练。而在共享模型模式中,所有智能体的数据合并后发送至同一资源池,集中更新通用模型。这种架构设计为不同任务场景提供了最优训练策略选择。

**框架实现与实验验证**

基于上述研究,团队开源了PettingLLMs框架,使多智能体强化学习开发变得简洁高效。开发者只需定义任务特定的智能体交互规则和奖励函数,即可快速搭建训练环境。框架支持不同模型与智能体间的任意映射关系,并允许每个智能体适配不同的LoRA微调模块,为复杂场景提供了高度灵活性。

在推箱子这类长规划任务中,通过AT-GRPO训练,两个智能体的协同性能从14%跃升至96%,展现出惊人的协同进化效果。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

研究团队在Qwen3-1.7B和Qwen3-8B两个模型规模上开展了大规模实验,覆盖规划、代码生成和数学推理三大类任务。实验结果显示:在规划任务中,Sokoban任务准确率从14%提升至96%,Plan-Path任务从47%提升至99.5%;代码生成任务中,LiveCodeBench提升6.1%,APPS提升4.2%,CodeContests提升7.0%;数学推理任务中,AIME 24提升9.0%,AIME 25提升17.9%。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

消融实验进一步揭示了框架的关键设计价值:仅在单智能体环境中训练,各子角色性能虽有提升(从5.0%提升至11.0%/14.5%),但在多智能体联合任务中仅达到16.0%;将训练完成的两个角色策略互换后,准确率从96.0%暴跌至6.0%,证明智能体习得的是互补且不可替代的专长;训练过程中,智能体的学习回报同步上升,任务所需平均回合数持续下降,显示出日益紧密的协作对齐。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

PettingLLMs框架的突破性意义在于,它首次实现了跨任务、跨规模的通用多智能体强化学习算法,为群体智能的协同进化提供了标准化工具。该框架不仅推动了多智能体系统从静态协作向动态进化的转变,更为未来复杂人机协同系统的构建奠定了技术基础。随着开源生态的完善,PettingLLMs有望成为多智能体研究的标准平台,加速人工智能从个体智能向群体智能的范式转变。

论文地址:https://huggingface.co/papers/2510.11062

GitHub仓库:https://github.com/pettingllms-ai/PettingLLMs

— 图片补充 —

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/7906

(0)
上一篇 2025年11月8日 上午11:48
下一篇 2025年11月8日 上午11:56

相关推荐

  • 阿里开源Qwen3-Coder-Next:3B激活参数硬刚Sonnet4.5,智能体训练范式颠覆编程AI

    今天凌晨,阿里开源了最新的编程模型 Qwen3-Coder-Next。其最引人注目的特点在于:一个仅激活 30亿参数 的模型,在编程智能体任务上达到了与 Claude Sonnet 4.5 等顶级模型相当的水平。 Qwen团队在同步公开的技术报告中,提出了一个反行业直觉的核心结论: “扩展智能体训练规模,而非仅仅扩大模型规模,才是提升现实世界编码智能体能力的…

    2026年2月4日
    49300
  • 600亿美元!马斯克旗下SpaceX收购编程神器Cursor

    那个神话与争议并存的编程神器Cursor,现在要改姓“马”了。 马斯克旗下的SpaceX通过X账号官宣,将以600亿美元的价格收购Cursor。 该推文也被Cursor CEO Michael Truell转发,他表示:“很高兴能与SpaceX团队合作,共同扩展Composer的规模。” 600亿美元,是什么概念?这个数字比Cursor去年11月的估值整整翻…

    2026年4月22日
    22000
  • 智谱华章登陆港交所:全球大模型第一股,市值528亿港元开启AGI新纪元

    「全球大模型第一股」来了! 2026年1月8日,北京智谱华章科技股份有限公司(02513.HK)正式在香港联合交易所挂牌上市。 至此,全球首家以通用人工智能(AGI)基座模型为核心业务的上市公司花落中国。 智谱首日开盘价120港元/股,市值528.28亿港元。 在本次IPO发行中,智谱香港公开发售获1159.46倍认购,国际发售获15.28倍认购。以每股11…

    2026年1月8日
    41100
  • AI智能体效能评估标准化:破解企业应用困局的关键路径

    随着大模型技术从概念验证迈向规模化应用,2025年企业关注的焦点已从技术探索转向业务实效。IDC最新报告指出,今年将成为企业从“AI实验”转向“通过AI重塑运营”的战略分水岭。在这一转型过程中,AI智能体作为连接技术能力与业务场景的关键载体,被寄予打通落地“最后一公里”的厚望。企业不再满足于基础对话功能,而是迫切需要能够处理复杂业务流程、交付确定性结果的业务…

    2025年12月19日
    50700
  • 中国AI视频双雄并起:Seedance 2.0与Vidu Q3组团席卷全球

    在AI视频创作领域,Seedance 2.0的爆火不是偶然。这一次真正“破圈”,很大程度上源于它所具备的“导演思维”——剧本驱动、分镜清晰、节奏精准。它让人们意识到,一个好的AI视频更需要创意调度。而过去,创作者在AI视频中最难掌握的两个要素,恰恰就是理解故事结构与镜头语言。 与此同时,另一款国产视频生成模型生数科技的Vidu Q3,也在创作者社群中走红,并…

    2026年2月12日
    44100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注