多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

在人工智能领域,大语言模型驱动的智能体系统正从单机作战向协同作战演进。近期,来自加州大学圣地亚哥分校和英特尔的研究团队提出的PettingLLMs框架,首次实现了通用的多智能体强化学习训练机制,为群体智能的协同进化开辟了新路径。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

**多智能体协同训练的瓶颈与突破**

当前大语言模型智能体已在医疗诊断、代码生成、科学研究及具身智能等多个领域展现出超越单智能体的协同优势。研究表明,未经专门训练的多智能体工作流就能在复杂任务中取得显著性能提升。然而,现有的LLM智能体训练框架,包括已被验证有效的Group Relative Policy Optimization算法,都局限于单智能体训练范畴。多智能体间的协同优化——即“群体强化”机制——始终是亟待解决的核心难题。

GRPO算法的有效性建立在关键假设之上:组内所有候选回答必须基于完全相同的上下文生成。算法通过多次采样生成候选回答,在组内进行相对优势评估,这种评估的公平性完全依赖于上下文的一致性。但在多智能体多轮交互场景中,这一假设被彻底打破。不同智能体在不同轮次接收的提示词存在显著差异——例如编程智能体在第二轮的提示词可能包含原始问题、首轮生成的代码以及其他智能体提供的单元测试。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

若简单地将跨轮次、跨智能体的回答视为同一组进行评估,就违反了GRPO的核心假设,导致优势计算基准不统一,评估结果失去公平性和有效性。因此,多智能体强化学习的核心挑战在于:如何在保证组内回答批量的同时,确保优势计算的公平性?

**树状采样与异步训练架构**

研究团队创新性地提出了贪婪搜索的树状采样方法。在每个训练轮次中,每个智能体作为节点生成K个分支,系统实时选择当前奖励最高的智能体进行下一轮分支扩展。这种设计巧妙平衡了探索与利用的权衡:既保证了足够的探索空间,又能够及时利用当前最优策略。每个智能体的奖励函数采用双重设计,既考虑角色专属任务的奖励,又纳入全局任务的协同奖励,确保智能体在提升专业能力的同时强化协作意识。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体系统还面临更深层的策略选择问题:何时应该让智能体进化成各司其职的“专属模型”?何时又该让所有智能体共享“通用模型”?为解决这一难题,团队设计了灵活的异步分发训练系统。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

系统中的路由模块负责收集多智能体交互产生的轨迹数据。在专属模型模式下,系统可配置多个独立的模型资源池,每个智能体的数据仅发送给对应的更新单元,实现专业化训练。而在共享模型模式中,所有智能体的数据合并后发送至同一资源池,集中更新通用模型。这种架构设计为不同任务场景提供了最优训练策略选择。

**框架实现与实验验证**

基于上述研究,团队开源了PettingLLMs框架,使多智能体强化学习开发变得简洁高效。开发者只需定义任务特定的智能体交互规则和奖励函数,即可快速搭建训练环境。框架支持不同模型与智能体间的任意映射关系,并允许每个智能体适配不同的LoRA微调模块,为复杂场景提供了高度灵活性。

在推箱子这类长规划任务中,通过AT-GRPO训练,两个智能体的协同性能从14%跃升至96%,展现出惊人的协同进化效果。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

研究团队在Qwen3-1.7B和Qwen3-8B两个模型规模上开展了大规模实验,覆盖规划、代码生成和数学推理三大类任务。实验结果显示:在规划任务中,Sokoban任务准确率从14%提升至96%,Plan-Path任务从47%提升至99.5%;代码生成任务中,LiveCodeBench提升6.1%,APPS提升4.2%,CodeContests提升7.0%;数学推理任务中,AIME 24提升9.0%,AIME 25提升17.9%。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

消融实验进一步揭示了框架的关键设计价值:仅在单智能体环境中训练,各子角色性能虽有提升(从5.0%提升至11.0%/14.5%),但在多智能体联合任务中仅达到16.0%;将训练完成的两个角色策略互换后,准确率从96.0%暴跌至6.0%,证明智能体习得的是互补且不可替代的专长;训练过程中,智能体的学习回报同步上升,任务所需平均回合数持续下降,显示出日益紧密的协作对齐。

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习

PettingLLMs框架的突破性意义在于,它首次实现了跨任务、跨规模的通用多智能体强化学习算法,为群体智能的协同进化提供了标准化工具。该框架不仅推动了多智能体系统从静态协作向动态进化的转变,更为未来复杂人机协同系统的构建奠定了技术基础。随着开源生态的完善,PettingLLMs有望成为多智能体研究的标准平台,加速人工智能从个体智能向群体智能的范式转变。

论文地址:https://huggingface.co/papers/2510.11062

GitHub仓库:https://github.com/pettingllms-ai/PettingLLMs

— 图片补充 —

多智能体协同进化新范式:PettingLLMs框架实现通用群体强化学习


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/7906

(0)
上一篇 2025年11月8日 上午11:48
下一篇 2025年11月8日 上午11:56

相关推荐

  • 智谱GLM-4.7登顶开源模型榜首,以511亿港元市值冲刺“全球大模型第一股”

    “全球大模型第一股”即将登陆港股!北京智谱华章科技股份有限公司(下称“智谱”)今起招股,预计2026年1月5日结束,并计划于2026年1月8日正式以“2513”为股票代码在港交所主板挂牌上市。 全球公开发售文件显示,智谱(02513.HK)计划在本次IPO中发行3741.95万股H股。其中,香港公开发售187.1万股H股,国际发售3554.85万股H股。以每…

    2025年12月30日
    15400
  • 突破显存壁垒:CLM系统如何让3D高斯泼溅技术在大场景渲染中实现消费级GPU部署

    3D高斯泼溅(3D Gaussian Splatting,简称3DGS)作为近年来新兴的视角合成技术,正以其高效的渲染能力和出色的图像质量,在计算机视觉与图形学领域掀起变革浪潮。该技术通过将3D场景表示为大量各向异性的3D高斯体,能够从一组带有位姿的输入图像中,迭代训练出能够捕捉场景外观与几何细节的表示模型。 用户可利用训练完成的场景表示,实时渲染出任意新视…

    2025年11月11日
    7800
  • 鸿蒙6开启A2A智能体协作时代:从“人找服务”到“服务找人”的交互革命

    在华为Mate80系列及MateX7发布会上,搭载鸿蒙6系统的折叠屏旗舰Mate X7展示了令人瞩目的AI交互新范式——Agent to Agent(A2A)智能体协作的商用落地。这不仅是华为在移动AI领域的一次重大突破,更标志着整个手机行业正迎来定义下一代应用交互规则的战略窗口期。 传统移动应用生态长期面临“功能孤岛”困境。APP之间相互独立、数据割裂的特…

    2025年12月6日
    8600
  • 马斯克xAI获200亿美元融资,估值一年翻四倍,Grok 5训练中剑指AGI

    马斯克xAI获200亿美元融资,估值一年翻四倍,Grok 5训练中剑指AGI 马斯克旗下的人工智能公司xAI近期完成了新一轮巨额融资。本轮E轮融资规模高达200亿美元(约合人民币1397亿元),远超此前市场传闻的150亿美元。值得注意的是,英伟达和思科均以“战略投资者”的身份参与了本轮融资。 关于英伟达的投资,还有一则背景故事。早在2025年10月xAI被曝…

    2026年1月7日
    15300
  • Ling-1T技术解析:蚂蚁集团如何通过“Every Activation Boosted”哲学重塑万亿参数推理模型范式

    近日,AI领域权威吴恩达在其《The Batch Newsletter》中重点分析了蚂蚁集团最新开源模型Ling-1T,指出这款非推理(non-reasoning)模型在性能上直逼业界顶尖闭源模型,这一现象背后隐藏着重要的技术转向。吴恩达特别强调,Ling-1T在预训练阶段就强化了思维链(CoT)能力,这种做法“正在模糊推理与非推理模型之间的界限”。这一观察…

    2025年10月29日
    7500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注