AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

斯坦福等机构提出全新框架,借助在线强化学习技术,推动智能体系统实现“小模型大作为”,性能表现领先于GPT-4o——

AgentFlow,作为一种在线优化智能体系统的新方法,能够持续增强智能体在复杂问题中的推理能力。

该系统由规划器、执行器、验证器和生成器四个专业智能体构成,它们通过共享内存实现协作,并采用创新方法Flow-GRPO,在系统内部对规划器智能体进行实时优化。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

基于Qwen-2.5-7B-Instruct基座模型的AgentFlow,在10项基准测试中表现优异:

搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。

在多项任务中,其表现甚至超过了规模大50倍的模型,包括GPT-4o与Llama3.1-405B。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

AgentFlow一经发布,便引起业界的广泛关注与积极评价。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

网友们对这一研究方向给予高度肯定:

“多智能体流(multi-agent flow)让人联想到‘相位耦合推理’(phase-coupled reasoning)。期待‘协同能力’成为衡量智能的新标准,逐步取代‘模型规模’。”

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

“Flow-GRPO采用基于共享内存的多智能体架构,设计巧妙。其中验证智能体对幻觉化工具调用的阻断机制尤为关键——它能有效抑制智能体工作流中常见的多步推理误差传播。”

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

那么,AgentFlow具体是如何构建的?

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

工具集成智能体系统 + 流式强化学习训练
随着“AI下半场”的到来,智能体(Agent)在垂直领域与通用场景中呈现爆发式增长。然而,在复杂决策与持续优化方面,现有智能体仍有不足。将智能体推理与强化学习的自我进化机制结合,成为突破该瓶颈的重要方向。

今年早些时候,DeepSeek-R1的发布为推理模型训练带来新思路。随后,伊利诺伊大学香槟分校(UIUC)推出Search-R1,系统阐释了如何利用强化学习训练能够自主推理并调用外部工具的推理模型(Tool-Integrated Reasoning Models)。

在此之前,智能体系统(Agentic System)的发展已从系统层面推动了智能体协作与可扩展性,为后续研究打下基础。

例如,LangGraph、PydanticAI、OWL等框架在智能体通信、任务规划与工具调用等方面进行了多样化探索,为智能体生态的快速发展提供了支持。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

AgentFlow提出一种新方法,由四个具备记忆功能的专门化智能体协同工作:

规划器负责分析任务并选择工具,执行器调用工具并整合结果,验证器基于累积记忆评估中间结果,生成器整合信息输出最终答案。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

面对新任务,规划器在智能体交互的“流”中根据环境及其他智能体反馈实时进行在线策略优化,各模块在推理流程中协同演化、动态调整策略。这些优化结果随后被纳入系统记忆,形成闭环的自适应推理过程,使整个系统在复杂环境下实现稳健的工具调用与持续进化。

AgentFlow包含以下关键组成部分:

模块化智能体架构

AgentFlow采用四个具备记忆的专门化智能体协同工作,实现“即时学习”:

(i)规划器:分析任务、制定策略并选择合适工具;
(ii)执行器:调用工具集并整合执行结果;
(iii)验证器:依据系统累积记忆评估中间结果是否满足目标与约束;
(iv)生成器:整合全部信息与验证反馈,生成最终答案或行动建议。

AgentFlow流式强化学习

AgentFlow的核心创新在于:规划器并非固定不变,而是在智能体交互的“流”中实现在线策略优化,使决策过程随环境及其他智能体反馈不断自适应调整。该集成过程分为三步:(i)环境感知与记忆检索,(ii)动作规划与工具选择,(iii)策略优化与记忆更新。

Flow-GRPO:流式强化学习优化算法

实现智能体流式强化学习的核心挑战在于多轮信用分配问题:如何在长期、奖励稀疏的条件下实现稳定高效训练。为此,研究团队提出动作级别的多轮推理优化目标。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

如图2所示,通过将轨迹最终的成功或失败信号广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提高了训练效率,为智能体在复杂多轮推理中的稳定学习奠定了基础。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

实验结果
为全面评估AgentFlow的泛化能力与效率,研究团队在10个涵盖多个领域的基准测试中进行了系统评估,包括知识检索、智能体任务、数学推理和科学推理四大类。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均优于现有领先方法:

知识检索提升14.9%
智能体推理提升14.0%
数学推理提升14.5%
科学推理提升4.1%
值得注意的是,AgentFlow的表现甚至超越了GPT-4o(约200B参数)等大规模专有模型。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

表1、2展示了AgentFlow在各类任务上的评估结果,表明其在有效性(相对提升高达14.9%)和效率(平均推理步数优化)方面均优于基准方法。

研究团队在10个基准测试中进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。部分发现如下:

1、模型规模并非唯一决定因素

使用7B参数的AgentFlow在多项任务中超越了约200B参数的GPT-4o和Llama3.1-405B,在搜索任务上领先8.2%,在智能体任务上领先15.8%。这再次表明,合理的系统设计与训练方法可能比单纯扩大模型参数更有效。

2、“流中学习”具有关键作用

对比实验显示,若采用离线监督学习方式训练规划器,性能平均下降19%。这说明,智能体在真实交互环境中进行在线学习是实现高效推理的必要条件。

此外,尽管AgentFlow的推理流本身具备强大的任务分解能力,但仍可能出现循环错误或卡顿。通过在真实环境中训练,智能体系统展现出快速修正工具调用错误、优化子任务规划以及提升整体任务解决能力的特点。

这些结果进一步验证了模块协作机制与流式强化学习在增强多轮智能体系统稳定性与效率方面的显著作用。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

3、自主探索新型解决路径

有趣的是,经过Flow-GRPO训练的规划器,系统能够根据任务特点选择合适的工具组合;同时,经过训练的系统会自主探索新的工具使用方式,例如组合使用维基百科搜索与网页增强搜索,通过工具链实现更深层的信息挖掘,而这些模式在未经训练的推理流中几乎未出现。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

4、动态推理深度与性能提升

对于同一数据集中的不同难度任务,例如多跳搜索、智能体任务中的长链推理任务,AgentFlow在经过Flow-GRPO训练后,能够随最大推理步数限制的提升稳步增强性能,同时不会显著增加平均推理步数。这表明系统在面对复杂任务时会增加有效推理步数以提升准确率,而不会对所有任务盲目延长推理过程。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

综上所述,AgentFlow为智能体训练提供了全新视角:

与其追求功能全面的单一大型语言模型或“一步到位”的智能体系统,不如让智能体在系统中实现自我适应与持续进化。

通过融合群体智能与“实践中学习”的模式,AgentFlow使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。

尽管从研究探索到实际落地仍有距离,但这让研究团队看到了Agentic AI所蕴含的巨大潜力与广阔前景。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4382

(0)
上一篇 2025年10月24日 下午12:00
下一篇 2025年10月25日 上午9:11

相关推荐

  • Apple Silicon神经引擎潜力爆发:M4 Pro ANE实现3.8 TFLOPS,能效超GPU 80%

    关键词:Apple Silicon、专用硬件加速器(DSA)、ANE、NUC、HPC、性能评估 当我们在谈论苹果自研芯片 M1、M2、M3 乃至最新的 M4 时,我们在谈论什么?绝大多数人的第一反应是其惊人的能效比、无风扇的轻薄本体验,或是那颗用于剪辑 ProRes 视频的强大媒体引擎。 但在这些光鲜的表面之下,苹果芯片中其实一直藏着一个极为低调却又潜力巨大…

    2026年2月14日
    24200
  • 2026年开源LLM选型指南:从模型规模到架构实战,打造安全可控的AI应用

    到了2026年,关于AI的讨论焦点已经发生了根本性转变。我们早已告别了“聊天机器人演示”的早期阶段。如今,严肃的企业正在构建自己的内部AI解决方案。他们深刻认识到,虽然外部API服务便捷,但公司的核心数据才是最具价值的资产,他们不愿将处理这些数据的关键“大脑”长期租用给外部供应商。 与此同时,技术领域也迎来了一个重大里程碑:开源大语言模型(LLM)的性能已经…

    2026年2月6日
    58900
  • 从代码补全到任务委托:AI编程助手的技术演进与豆包编程模型的实战突破

    在人工智能技术快速迭代的浪潮中,AI编程助手已成为开发者工作流中不可或缺的组成部分。从最初的简单代码补全到如今能够处理复杂工程任务的智能体,这一领域正经历着深刻的技术范式转移。本文将从技术演进、市场痛点、模型能力三个维度,深入分析当前AI编程助手的发展现状,并以火山引擎豆包编程模型(Doubao-Seed-Code)为案例,探讨其在真实工程场景中的表现与突破…

    2025年11月11日
    18400
  • Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 开年第一个月,国产AI视频生成领域竞争激烈。 AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。 例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面: 从画面、台词到音效,都颇具原版日漫的风格。 制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3。 深度体验后,…

    2026年1月30日
    21500
  • 仙工智能IPO透视:工业机器人控制器的隐形冠军,三年亏损1.22亿背后的战略抉择

    在具身智能成为创投风口的当下,工业机器人领域正迎来新一轮技术迭代与市场洗牌。仙工智能作为以机器人控制系统为核心的智能机器人公司,近期再次向港交所递交招股书,其业务模式、财务表现与战略布局引发行业深度关注。本文将从技术架构、商业模式、财务数据及行业竞争四个维度,系统分析这家隐形冠军企业的机遇与挑战。 **一、技术架构:控制器为核心的四大产品矩阵** 仙工智能的…

    2025年12月3日
    17500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注