AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

斯坦福等机构提出全新框架,借助在线强化学习技术,推动智能体系统实现“小模型大作为”,性能表现领先于GPT-4o——

AgentFlow,作为一种在线优化智能体系统的新方法,能够持续增强智能体在复杂问题中的推理能力。

该系统由规划器、执行器、验证器和生成器四个专业智能体构成,它们通过共享内存实现协作,并采用创新方法Flow-GRPO,在系统内部对规划器智能体进行实时优化。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

基于Qwen-2.5-7B-Instruct基座模型的AgentFlow,在10项基准测试中表现优异:

搜索任务提升14.9%、智能体任务提升14.0%、数学任务提升14.5%、科学任务提升4.1%。

在多项任务中,其表现甚至超过了规模大50倍的模型,包括GPT-4o与Llama3.1-405B。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

AgentFlow一经发布,便引起业界的广泛关注与积极评价。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

网友们对这一研究方向给予高度肯定:

“多智能体流(multi-agent flow)让人联想到‘相位耦合推理’(phase-coupled reasoning)。期待‘协同能力’成为衡量智能的新标准,逐步取代‘模型规模’。”

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

“Flow-GRPO采用基于共享内存的多智能体架构,设计巧妙。其中验证智能体对幻觉化工具调用的阻断机制尤为关键——它能有效抑制智能体工作流中常见的多步推理误差传播。”

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

那么,AgentFlow具体是如何构建的?

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

工具集成智能体系统 + 流式强化学习训练
随着“AI下半场”的到来,智能体(Agent)在垂直领域与通用场景中呈现爆发式增长。然而,在复杂决策与持续优化方面,现有智能体仍有不足。将智能体推理与强化学习的自我进化机制结合,成为突破该瓶颈的重要方向。

今年早些时候,DeepSeek-R1的发布为推理模型训练带来新思路。随后,伊利诺伊大学香槟分校(UIUC)推出Search-R1,系统阐释了如何利用强化学习训练能够自主推理并调用外部工具的推理模型(Tool-Integrated Reasoning Models)。

在此之前,智能体系统(Agentic System)的发展已从系统层面推动了智能体协作与可扩展性,为后续研究打下基础。

例如,LangGraph、PydanticAI、OWL等框架在智能体通信、任务规划与工具调用等方面进行了多样化探索,为智能体生态的快速发展提供了支持。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

AgentFlow提出一种新方法,由四个具备记忆功能的专门化智能体协同工作:

规划器负责分析任务并选择工具,执行器调用工具并整合结果,验证器基于累积记忆评估中间结果,生成器整合信息输出最终答案。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

面对新任务,规划器在智能体交互的“流”中根据环境及其他智能体反馈实时进行在线策略优化,各模块在推理流程中协同演化、动态调整策略。这些优化结果随后被纳入系统记忆,形成闭环的自适应推理过程,使整个系统在复杂环境下实现稳健的工具调用与持续进化。

AgentFlow包含以下关键组成部分:

模块化智能体架构

AgentFlow采用四个具备记忆的专门化智能体协同工作,实现“即时学习”:

(i)规划器:分析任务、制定策略并选择合适工具;
(ii)执行器:调用工具集并整合执行结果;
(iii)验证器:依据系统累积记忆评估中间结果是否满足目标与约束;
(iv)生成器:整合全部信息与验证反馈,生成最终答案或行动建议。

AgentFlow流式强化学习

AgentFlow的核心创新在于:规划器并非固定不变,而是在智能体交互的“流”中实现在线策略优化,使决策过程随环境及其他智能体反馈不断自适应调整。该集成过程分为三步:(i)环境感知与记忆检索,(ii)动作规划与工具选择,(iii)策略优化与记忆更新。

Flow-GRPO:流式强化学习优化算法

实现智能体流式强化学习的核心挑战在于多轮信用分配问题:如何在长期、奖励稀疏的条件下实现稳定高效训练。为此,研究团队提出动作级别的多轮推理优化目标。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

如图2所示,通过将轨迹最终的成功或失败信号广播至每一步,将原本复杂的多轮强化学习问题转化为一系列可处理的单轮策略更新。该方法不仅缓解了奖励稀疏问题,还显著提高了训练效率,为智能体在复杂多轮推理中的稳定学习奠定了基础。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

实验结果
为全面评估AgentFlow的泛化能力与效率,研究团队在10个涵盖多个领域的基准测试中进行了系统评估,包括知识检索、智能体任务、数学推理和科学推理四大类。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

以Qwen-2.5-7B-Instruct为基座模型的AgentFlow在各项基准上均优于现有领先方法:

知识检索提升14.9%
智能体推理提升14.0%
数学推理提升14.5%
科学推理提升4.1%
值得注意的是,AgentFlow的表现甚至超越了GPT-4o(约200B参数)等大规模专有模型。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

表1、2展示了AgentFlow在各类任务上的评估结果,表明其在有效性(相对提升高达14.9%)和效率(平均推理步数优化)方面均优于基准方法。

研究团队在10个基准测试中进行了评估,涵盖知识检索、智能体任务、数学推理和科学推理四大类。部分发现如下:

1、模型规模并非唯一决定因素

使用7B参数的AgentFlow在多项任务中超越了约200B参数的GPT-4o和Llama3.1-405B,在搜索任务上领先8.2%,在智能体任务上领先15.8%。这再次表明,合理的系统设计与训练方法可能比单纯扩大模型参数更有效。

2、“流中学习”具有关键作用

对比实验显示,若采用离线监督学习方式训练规划器,性能平均下降19%。这说明,智能体在真实交互环境中进行在线学习是实现高效推理的必要条件。

此外,尽管AgentFlow的推理流本身具备强大的任务分解能力,但仍可能出现循环错误或卡顿。通过在真实环境中训练,智能体系统展现出快速修正工具调用错误、优化子任务规划以及提升整体任务解决能力的特点。

这些结果进一步验证了模块协作机制与流式强化学习在增强多轮智能体系统稳定性与效率方面的显著作用。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

3、自主探索新型解决路径

有趣的是,经过Flow-GRPO训练的规划器,系统能够根据任务特点选择合适的工具组合;同时,经过训练的系统会自主探索新的工具使用方式,例如组合使用维基百科搜索与网页增强搜索,通过工具链实现更深层的信息挖掘,而这些模式在未经训练的推理流中几乎未出现。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

4、动态推理深度与性能提升

对于同一数据集中的不同难度任务,例如多跳搜索、智能体任务中的长链推理任务,AgentFlow在经过Flow-GRPO训练后,能够随最大推理步数限制的提升稳步增强性能,同时不会显著增加平均推理步数。这表明系统在面对复杂任务时会增加有效推理步数以提升准确率,而不会对所有任务盲目延长推理过程。

AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o
AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

综上所述,AgentFlow为智能体训练提供了全新视角:

与其追求功能全面的单一大型语言模型或“一步到位”的智能体系统,不如让智能体在系统中实现自我适应与持续进化。

通过融合群体智能与“实践中学习”的模式,AgentFlow使智能体系统能够在协同演化中不断优化,从而高效应对复杂任务。

尽管从研究探索到实际落地仍有距离,但这让研究团队看到了Agentic AI所蕴含的巨大潜力与广阔前景。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4382

(0)
上一篇 2025年10月24日 下午12:00
下一篇 2025年10月25日 上午9:11

相关推荐

  • 斯坦福CS146S深度解析:AI原生软件工程师的“零代码”革命与未来编程范式重构

    在人工智能浪潮席卷全球的当下,斯坦福大学计算机系推出的《现代软件开发者》(CS146S: The Modern Software Developer)课程,以其颠覆性的“零代码”教学理念,迅速成为AI领域的热门焦点。这门课程不仅反映了高等教育对技术变革的前瞻性响应,更揭示了软件开发范式正在经历的根本性重构。本文将从课程设计、技术内涵、行业影响三个维度,深入剖…

    2025年12月8日
    74500
  • 2026年自动化加速利器:13个Python库提升开发效率

    在不同项目里反复做同样的事会耗尽你的时间和注意力。原本几秒钟就该跑完的代码,常常变成缓慢而凌乱的流程。许多开发者把数小时花在本可以交给库即时处理的工作上。 选对库可以消除摩擦、加速自动化。它们让你把精力放在解决问题上,而不是管理样板代码。借助这些工具,重复性工作会更快、更少出错。 1. Ovld 🦄 Ovld 允许你按参数类型对 Python 函数进行重载,…

    2025年12月21日
    52000
  • LM Studio推出LM Link:让本地大模型远程调用成为现实

    当你的笔记本电脑在移动中难以运行大型AI模型时,家中高性能工作站的算力却处于闲置状态。LM Studio最新推出的“LM Link”功能,旨在改变这一现状。 通过与Tailscale合作,LM Link构建了一个专为AI模型设计的私有安全网络。它允许用户将安装有LM Studio的不同设备相互连接,从而实现远程调用模型,体验与本地运行无异。 技术核心:基于M…

    2026年2月26日
    1.2K00
  • 苹果自用Claude Code意外泄露,AI开发秘密曝光

    苹果出现重大失误:将内部使用的 Claude.md 文件打包进了官方 App。 这直接证实了一件事——苹果内部正在利用 Claude Code 构建生产级应用。 难道连这家巨头也在搞“Vibe Coding”? 项目级别的 Claude.md 通常用来向 AI 说明项目内容、构建方法、需遵循的规则以及需要避免的雷区…… 这家全球最注重保密的科技公司,最终还是…

    13小时前
    9300
  • NVIDIA ComputeEval:从基准建立到难度升级,全面评估 LLMs 的 CUDA 代码生成能力

    关键词:CUDA 代码生成 、NVIDIA、CUDA 代码数据集 、AI 辅助编程 大语言模型(LLMs)正深刻改变开发者的编码方式——无论是资深工程师还是入门开发者,如今的顶尖模型已能流畅生成 Python 脚本、React 网站代码等。 代码:https://github.com/nvidia/compute-eval 数据:https://huggin…

    2025年12月21日
    41900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注