AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

斯坦福等机构提出全新框架,借助在线强化学习技术,推动智能体系统实现“小模型大作为”,性能表现领先于GPT-4o——

AgentFlow,作为一种在线优化智能体系统的新方法,能够持续增强智能体在复杂问题中的推理能力。

该系统由规划器、执行器、验证器和生成器四个专业智能体构成,它们通过共享内存实现协作,并采用创新方法Flow-GRPO,在系统内部对规划器智能体进行实时优化。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

基于Qwen-2.5-7B-Instruct基座模型的AgentFlow,在10项基准测试中表现优异:

搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。

在多项任务中,其表现甚至超过了规模大50倍的模型,包括GPT-4o与Llama3.1-405B。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

AgentFlow一经发布,便引起业界的广泛关注与积极评价。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

网友们对这一研究方向给予高度肯定:

“多智能体流(multi-agent flow)让人联想到‘相位耦合推理’(phase-coupled reasoning)。期待‘协同能力’成为衡量智能的新标准,逐步取代‘模型规模’。”

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

“Flow-GRPO采用基于共享内存的多智能体架构,设计巧妙。其中验证智能体对幻觉化工具调用的阻断机制尤为关键——它能有效抑制智能体工作流中常见的多步推理误差传播。”

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

那么,AgentFlow具体是如何构建的?

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

工具集成智能体系统 + 流式强化学习训练
随着“AI下半场”的到来,智能体(Agent)在垂直领域与通用场景中呈现爆发式增长。然而,在复杂决策与持续优化方面,现有智能体仍有不足。将智能体推理与强化学习的自我进化机制结合,成为突破该瓶颈的重要方向。

今年早些时候,DeepSeek-R1的发布为推理模型训练带来新思路。随后,伊利诺伊大学香槟分校(UIUC)推出Search-R1,系统阐释了如何利用强化学习训练能够自主推理并调用外部工具的推理模型(Tool-Integrated Reasoning Models)。

在此之前,智能体系统(Agentic System)的发展已从系统层面推动了智能体协作与可扩展性,为后续研究打下基础。

例如,LangGraph、PydanticAI、OWL等框架在智能体通信、任务规划与工具调用等方面进行了多样化探索,为智能体生态的快速发展提供了支持。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

AgentFlow提出一种新方法,由四个具备记忆功能的专门化智能体协同工作:

规划器负责分析任务并选择工具,执行器调用工具并整合结果,验证器基于累积记忆评估中间结果,生成器整合信息输出最终答案。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

面对新任务,规划器在智能体交互的“流”中根据环境及其他智能体反馈实时进行在线策略优化,各模块在推理流程中协同演化、动态调整策略。这些优化结果随后被纳入系统记忆,形成闭环的自适应推理过程,使整个系统在复杂环境下实现稳健的工具调用与持续进化。

AgentFlow包含以下关键组成部分:

模块化智能体架构

AgentFlow采用四个具备记忆的专门化智能体协同工作,实现“即时学习”:

(i)规划器:分析任务、制定策略并选择合适工具;
(ii)执行器:调用工具集并整合执行结果;
(iii)验证器:依据系统累积记忆评估中间结果是否满足目标与约束;
(iv)生成器:整合全部信息与验证反馈,生成最终答案或行动建议。

AgentFlow流式强化学习

AgentFlow的核心创新在于:规划器并非固定不变,而是在智能体交互的“流”中实现在线策略优化,使决策过程随环境及其他智能体反馈不断自适应调整。该集成过程分为三步:(i)环境感知与记忆检索,(ii)动作规划与工具选择,(iii)策略优化与记忆更新。

Flow-GRPO:流式强化学习优化算法

实现智能体流式强化学习的核心挑战在于多轮信用分配问题:如何在长期、奖励稀疏的条件下实现稳定高效训练。为此,研究团队提出动作级别的多轮推理优化目标。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

如图2所示,通过将轨迹最终的成功或失败信号广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提高了训练效率,为智能体在复杂多轮推理中的稳定学习奠定了基础。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

实验结果
为全面评估AgentFlow的泛化能力与效率,研究团队在10个涵盖多个领域的基准测试中进行了系统评估,包括知识检索、智能体任务、数学推理和科学推理四大类。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均优于现有领先方法:

知识检索提升14.9%
智能体推理提升14.0%
数学推理提升14.5%
科学推理提升4.1%
值得注意的是,AgentFlow的表现甚至超越了GPT-4o(约200B参数)等大规模专有模型。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

表1、2展示了AgentFlow在各类任务上的评估结果,表明其在有效性(相对提升高达14.9%)和效率(平均推理步数优化)方面均优于基准方法。

研究团队在10个基准测试中进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。部分发现如下:

1、模型规模并非唯一决定因素

使用7B参数的AgentFlow在多项任务中超越了约200B参数的GPT-4o和Llama3.1-405B,在搜索任务上领先8.2%,在智能体任务上领先15.8%。这再次表明,合理的系统设计与训练方法可能比单纯扩大模型参数更有效。

2、“流中学习”具有关键作用

对比实验显示,若采用离线监督学习方式训练规划器,性能平均下降19%。这说明,智能体在真实交互环境中进行在线学习是实现高效推理的必要条件。

此外,尽管AgentFlow的推理流本身具备强大的任务分解能力,但仍可能出现循环错误或卡顿。通过在真实环境中训练,智能体系统展现出快速修正工具调用错误、优化子任务规划以及提升整体任务解决能力的特点。

这些结果进一步验证了模块协作机制与流式强化学习在增强多轮智能体系统稳定性与效率方面的显著作用。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

3、自主探索新型解决路径

有趣的是,经过Flow-GRPO训练的规划器,系统能够根据任务特点选择合适的工具组合;同时,经过训练的系统会自主探索新的工具使用方式,例如组合使用维基百科搜索与网页增强搜索,通过工具链实现更深层的信息挖掘,而这些模式在未经训练的推理流中几乎未出现。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

4、动态推理深度与性能提升

对于同一数据集中的不同难度任务,例如多跳搜索、智能体任务中的长链推理任务,AgentFlow在经过Flow-GRPO训练后,能够随最大推理步数限制的提升稳步增强性能,同时不会显著增加平均推理步数。这表明系统在面对复杂任务时会增加有效推理步数以提升准确率,而不会对所有任务盲目延长推理过程。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

综上所述,AgentFlow为智能体训练提供了全新视角:

与其追求功能全面的单一大型语言模型或“一步到位”的智能体系统,不如让智能体在系统中实现自我适应与持续进化。

通过融合群体智能与“实践中学习”的模式,AgentFlow使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。

尽管从研究探索到实际落地仍有距离,但这让研究团队看到了Agentic AI所蕴含的巨大潜力与广阔前景。

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4382

(0)
上一篇 2025年10月23日 下午12:36
下一篇 2025年10月25日 下午7:16

相关推荐

  • LLM 大模型工程师:AI 时代的弄潮儿

    随着 LLM 技术的不断发展和突破,LLM 大模型工程师这一新兴职业应运而生,他们正成为推动 AI 进步的关键力量,对于传统软件工程师来说,了解并迈向这一领域,或许将开启一段充满机遇与挑战的职业新征程。

    2025年10月2日
    13100
  • 美团视频生成模型来了!一出手就是开源SOTA

    美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

    6天前
    4000
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线

    谷歌Gemini 3.0 Pro即将上线,实测表现惊艳。新一代模型在编程、视觉生成和多模态能力上大幅提升,不仅轻松通过“小球六边形重力摩擦”等经典测试,更被开发者盛赞为“有史以来最强前端开发模型”。与此同时,谷歌正全面整合Gemini生态系统,从即将推出的轻量级Gemma 3到全新的视觉化界面设计,预示着AI竞赛将进入全新阶段。

    2025年10月4日
    10802
  • 大模型流式输出打字机效果的前后端实现

    1. 背景 在使用ChatGPT时,发现输入 prompt 后,页面是逐步给出回复的,起初以为使用了 WebSckets 持久化连接协议,查看其网络请求,发现这个接口的通信方式并非传统的 http 接口或者 WebSockets,而是基于 EventStream 的事件流,像打字机一样,一段一段的返回答案。 ChatGPT 是一个基于深度学习的大型语言模型,…

    2025年10月1日
    21601
  • 开源模型TOP5,被中国厂商包圆了

    10月,公开数据显示,来自中国的开源大模型已经牢牢占据榜单前五。

    2025年10月15日
    7200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注