部署时学习:让LLM Agent在真实任务流中持续进化

当大型语言模型代理(LLM Agent)步入真实世界应用场景时,它面对的已不再是静态的、一次性完成的测试数据集,而是源源不断、持续抵达的任务流。

每一次工具调用、代码执行、网页搜索或任务完成,都会随之产生反馈信号:操作是成功还是失败?收集到的证据是否充足?所选工具是否恰当?这些在部署阶段自然涌现的信号,能否反过来成为代理自我优化的养分?

研究团队的最新成果提出了“部署时学习”(Deployment-Time Learning, DTL)这一概念,并进一步研发了CASCADE系统。其核心并非简单地积累经验,而是让代理在在线任务流中学会如何“挑选”经验:面对当前任务时,应当参考过去的哪一次交互,才能做出更优决策?

部署时学习:让LLM Agent在真实任务流中持续进化

  • 论文标题:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment
  • 论文链接:https://arxiv.org/abs/2605.06702
  • 代码仓库:https://github.com/guosyjlu/CASCADE
  • 基准测试:https://huggingface.co/datasets/guosy/DTLBench

研究背景

目前,关于代理经验学习的相关工作,其常见设定大致可分为两类:

第一类延续了传统的机器学习范式:系统首先在训练集上进行学习,例如微调模型、优化提示词、构建记忆库或技能库,随后在测试集上评估其性能。

第二类则侧重于运行时学习,即系统在同一个数据集上先进行多轮学习,再观察其性能提升。

这些设定均具备研究价值,然而真实的部署环境还包含一个至关重要的维度:时间。在真实系统中,任务是按顺序依次到达的。代理无法预知未来的任务,也不能随意回溯去重做某个请求。每一步操作,既是一次服务,也是一次反馈收集;当前的选择不仅影响本次任务的结果,也可能对后续的策略产生影响。

部署时学习:让LLM Agent在真实任务流中持续进化

因此,CASCADE将部署时学习定义为一个在线学习问题。在第t步,代理接收到一个查询,生成答案或行动轨迹,环境则返回成功或失败的二值反馈。代理的目标不再仅仅是优化单个任务,而是提升整个部署序列上的长期成功率;等价地,也就是降低在线学习中的“遗憾”(Regret)。这一设定更贴近工业系统中的持续服务过程,也为评估代理的部署适应能力提供了清晰的形式化框架。

基于案例的部署时学习:CASCADE

在部署时学习的设定下,基座模型保持固定,不对其参数进行在线更新。学习过程发生在代理的外围组件中,特别是记忆和检索机制。CASCADE以基于案例的推理(Case-Based Reasoning, CBR)为底层框架。当新任务来临时,系统从历史案例库中检索出相关的成功案例,将其作为上下文提供给大语言模型,再根据环境反馈决定是否保留新的案例。这一流程包含四个步骤:

  1. 检索(Retrieve):从不断增长的案例库中检索候选案例。
  2. 复用(Reuse):将案例作为上下文,辅助大语言模型解决当前查询。
  3. 修改(Revise):生成最终的答案或行动轨迹。
  4. 保存(Retain):如果环境反馈为成功,则将本次交互保存为新的案例。

在这个4R循环中,CASCADE的关键在于:它将“检索哪个案例”建模为一个上下文赌博机(Contextual Bandit)问题,从而在检索过程中实现了探索与利用的权衡。在每个时间步,当前查询是上下文,候选案例是可选择的动作。代理选择某个案例后,大语言模型基于该案例生成结果,环境返回成功或失败的反馈。检索器随后利用该反馈更新策略,以便在后续任务中更好地权衡利用与探索。

部署时学习:让LLM Agent在真实任务流中持续进化

换言之,CASCADE学习的是一个在线检索策略:它利用部署过程中观察到的奖励信号,判断哪些案例在给定的任务中更有价值。针对这一场景,本文提出了Neural-LinLogUCB算法。该算法使用Transformer建模查询与案例之间的交互表示,并通过线性头进行不确定性估计,从而适配二值反馈下的上下文赌博机学习。

从理论上看,CASCADE将整体遗憾分解为两部分:

  1. 覆盖差距:案例库是否已经包含了足够相关的历史经验。
  2. 检索遗憾:在已有的候选案例中,检索策略是否选中了最有用的那个。

随着部署过程的持续进行,成功案例逐渐被保存到案例库中,由覆盖不足带来的损失会降低;同时,检索器通过二值反馈更新,逐步减少因选择错误案例而带来的检索遗憾。在合理假设下,CASCADE可以得到无遗憾学习保证。

部署时学习:让LLM Agent在真实任务流中持续进化

因此,CASCADE不仅仅是一个记忆模块,更是一个面向部署任务流的原则化在线经验学习框架。

部署时学习基准测试:DTLBench

为了系统性地评估部署时学习能力,论文构建了DTLBench。该基准包含16个任务,覆盖医疗、法律、金融、智能运维、编程、具身决策、信息检索等多个领域,并包含单轮任务和多轮任务。

部署时学习:让LLM Agent在真实任务流中持续进化

单轮任务包括:医疗诊断、药物推荐、科室转诊、急诊分诊、法律罪名预测、刑罚预测、金融意图路由、金融情感分析、根因分析、日志故障诊断、Text-to-SQL。
多轮任务包括:经典的ALFWorld、ScienceWorld,以及两个更接近真实应用的场景——基于网页的深度搜索和电子健康记录上的复杂表格推理。

在DTLBench中,每个任务都被组织为在线查询序列。代理必须按顺序处理样本,只能利用已经发生的历史交互和反馈。这一区别使得部署步上的成功率成为核心评估指标。

主要实验结果

在12个单轮任务上,使用Qwen3-32B作为底座模型时,零样本提示的平均成功率为48.33%,非参数基线NP-CBR达到63.76%,而CASCADE则进一步提升到66.68%。这一结果表明,案例复用本身已经能带来显著收益;在此基础上,利用在线反馈来学习检索策略,可以进一步提升部署序列上的长期表现。

部署时学习:让LLM Agent在真实任务流中持续进化

与基于参数更新的基线REINFORCE+LoRA相比,CASCADE在12个单轮任务中的9个任务上取得了更优结果,并在其余任务上表现接近。同时,CASCADE不需要更新底座大语言模型的参数,学习过程的显存消耗低于4GB,适合在更轻量的部署条件下运行。

部署时学习:让LLM Agent在真实任务流中持续进化

论文还验证了CASCADE对不同底座模型规模的适用性。在Qwen3-4B、8B、14B、32B上,CASCADE在大多数设置中均能带来稳定提升。对于黑盒模型gemini-2.0-flash,CASCADE同样适用,在可评估的9个任务上将平均成功率提升到72.58%,高于零样本提示的56.58%和NP-CBR的70.68%。

这些结果说明,部署时学习并不必须依赖对大语言模型参数的访问。对于基于API服务的黑盒模型,或者不适合频繁微调的工业系统,CASCADE提供了一条通过代理外围组件进行持续适应的可行路径。

部署时学习:让LLM Agent在真实任务流中持续进化

在ALFWorld上,CASCADE将成功率从NP-CBR的62.01%提升到67.43%;在ScienceWorld上,从59.36%提升到66.84%。将CASCADE插入ReAct框架后,也能进一步提升代理在多轮环境中的任务完成率。

部署时学习:让LLM Agent在真实任务流中持续进化

在基于网页的深度搜索场景中,Agent 需要多次调用本地 RAG 工具或实时网页搜索工具,以完成多跳问答任务。引入部署时学习后,CASCADE 在本地 RAG 和实时网页搜索两种设定下均表现出显著的性能提升。

部署时学习:让LLM Agent在真实任务流中持续进化

在电子健康记录表格推理任务中,Agent 需要通过 API 查询数据库并编写相应代码。零样本提示的成功率为 20.75%,NP-CBR 方法达到了 44.02%,而 CASCADE 则进一步提升至 55.76%,同时有效减少了平均调试轮次。

小结

CASCADE 旨在回应一个在 LLM Agent 部署过程中日益凸显的关键问题:当任务持续到来、反馈不断累积,而底层模型参数保持不变时,Agent 如何在真实的交互过程中实现学习?

本文的核心贡献可归纳为以下三点:

  1. 提出部署时学习,将 LLM Agent 的部署阶段形式化为一种无需参数更新的在线经验学习;
  2. 提出 CASCADE,通过基于案例的推理与上下文赌博机学习,构建了一个原则化的部署时学习框架;
  3. 构建 DTLBench,在 16 个跨领域任务上评估 Agent 在在线任务序列中的长期表现。

从这个角度来看,CASCADE 的重点并非在于重新证明“经验有用”,而是进一步提出:部署过程本身可以被建模、评估和优化。随着 Agent 系统逐步进入更开放、更长期、更依赖工具的应用场景,如何在真实任务流中利用反馈实现稳定学习,可能将成为大模型部署后一个重要的研究方向。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35063

(0)
上一篇 6小时前
下一篇 6小时前

相关推荐

  • 构建实时语音驱动RAG系统:从架构设计到生产部署的全栈指南

    多数团队都在谈论构建对话代理,但真正将其打磨到可用于生产环境却充满挑战。语音系统尤为严苛:延迟会立刻显现,检索失误会破坏信任,而语音、语言与响应之间的任何断层,都会让用户体验大打折扣。本文将带你构建一个“声音原生”的对话代理,实现端到端自然流畅的交互。你将了解语音如何在实时流程中依次经过转写、推理、检索与合成,以及各层如何协同工作以保持体验的连贯性。阅读本部…

    2025年12月30日
    44800
  • TritonForge:剖析引导+LLM协同,突破Triton内核优化瓶颈,成功率42.7%最高提速5倍

    TritonForge: Profiling-Guided Framework for Automated Triton Kernel Optimization https://arxiv.org/pdf/2512.09196 本文提出 TritonForge,一款基于剖析引导的自动化 Triton 内核优化框架,旨在解决现代机器学习中 GPU 内核优化耗时…

    2025年12月21日
    73600
  • 300亿美元能否突破AI增长瓶颈?尤洋教授深度解析算力与智能的底层逻辑

    智能增长的瓶颈:300亿美元能否买到超越GPT-4的模型? 2026年将至,ChatGPT发布三周年,但关于“AI瓶颈期” 的焦虑正达到顶峰。 当全行业都在讨论如何通过量化、蒸馏来“省钱”时,新加坡国立大学校长青年教授、潞晨科技创始人尤洋 却提出了一个更为本质的拷问: 如果给你300亿美元预算,今天我们真的能训出比GPT-4强出几个维度的模型吗? 在《智能增…

    2025年12月31日
    47100
  • 清华大学联合美团推出3DThinker:首个让大模型“脑补”三维场景的突破性框架

    给定几张场景图片,人类往往能在脑海中想象出该场景的三维布局。然而,当前的多模态大模型仍主要基于纯文本或二维视觉信息进行推理,难以有效表达图像中隐含的几何结构。 为此,清华大学与美团研究团队联合提出了 3DThinker——首个旨在让大模型进行三维场景“脑补”的突破性框架。 论文地址:https://arxiv.org/pdf/2510.18632 代码地址:…

    2026年3月11日
    33600
  • A2UI协议:开启AI原生交互新时代,让智能体“说”出动态界面

    Google 最近开源了一个名为 A2UI 的项目,旨在解决一个实际问题:AI 智能体如何安全地生成丰富的用户界面? 传统上,智能体只能返回文本,用户需要通过多轮对话才能完成任务。而 A2UI 允许智能体直接生成表单、按钮、日期选择器等交互式组件,用户只需点击几下即可完成操作。 从固定界面到动态生成的转变 传统的智能体交互主要基于文字聊天——用户提问,AI …

    2025年12月25日
    94600