部署时学习：让LLM Agent在真实任务流中持续进化

当大型语言模型代理（LLM Agent）步入真实世界应用场景时，它面对的已不再是静态的、一次性完成的测试数据集，而是源源不断、持续抵达的任务流。

每一次工具调用、代码执行、网页搜索或任务完成，都会随之产生反馈信号：操作是成功还是失败？收集到的证据是否充足？所选工具是否恰当？这些在部署阶段自然涌现的信号，能否反过来成为代理自我优化的养分？

研究团队的最新成果提出了“部署时学习”（Deployment-Time Learning, DTL）这一概念，并进一步研发了CASCADE系统。其核心并非简单地积累经验，而是让代理在在线任务流中学会如何“挑选”经验：面对当前任务时，应当参考过去的哪一次交互，才能做出更优决策？

部署时学习：让LLM Agent在真实任务流中持续进化

论文标题：CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment
论文链接：https://arxiv.org/abs/2605.06702
代码仓库：https://github.com/guosyjlu/CASCADE
基准测试：https://huggingface.co/datasets/guosy/DTLBench

研究背景

目前，关于代理经验学习的相关工作，其常见设定大致可分为两类：

第一类延续了传统的机器学习范式：系统首先在训练集上进行学习，例如微调模型、优化提示词、构建记忆库或技能库，随后在测试集上评估其性能。

第二类则侧重于运行时学习，即系统在同一个数据集上先进行多轮学习，再观察其性能提升。

这些设定均具备研究价值，然而真实的部署环境还包含一个至关重要的维度：时间。在真实系统中，任务是按顺序依次到达的。代理无法预知未来的任务，也不能随意回溯去重做某个请求。每一步操作，既是一次服务，也是一次反馈收集；当前的选择不仅影响本次任务的结果，也可能对后续的策略产生影响。

部署时学习：让LLM Agent在真实任务流中持续进化

因此，CASCADE将部署时学习定义为一个在线学习问题。在第t步，代理接收到一个查询，生成答案或行动轨迹，环境则返回成功或失败的二值反馈。代理的目标不再仅仅是优化单个任务，而是提升整个部署序列上的长期成功率；等价地，也就是降低在线学习中的“遗憾”（Regret）。这一设定更贴近工业系统中的持续服务过程，也为评估代理的部署适应能力提供了清晰的形式化框架。

基于案例的部署时学习：CASCADE

在部署时学习的设定下，基座模型保持固定，不对其参数进行在线更新。学习过程发生在代理的外围组件中，特别是记忆和检索机制。CASCADE以基于案例的推理（Case-Based Reasoning, CBR）为底层框架。当新任务来临时，系统从历史案例库中检索出相关的成功案例，将其作为上下文提供给大语言模型，再根据环境反馈决定是否保留新的案例。这一流程包含四个步骤：

检索（Retrieve）：从不断增长的案例库中检索候选案例。
复用（Reuse）：将案例作为上下文，辅助大语言模型解决当前查询。
修改（Revise）：生成最终的答案或行动轨迹。
保存（Retain）：如果环境反馈为成功，则将本次交互保存为新的案例。

在这个4R循环中，CASCADE的关键在于：它将“检索哪个案例”建模为一个上下文赌博机（Contextual Bandit）问题，从而在检索过程中实现了探索与利用的权衡。在每个时间步，当前查询是上下文，候选案例是可选择的动作。代理选择某个案例后，大语言模型基于该案例生成结果，环境返回成功或失败的反馈。检索器随后利用该反馈更新策略，以便在后续任务中更好地权衡利用与探索。

部署时学习：让LLM Agent在真实任务流中持续进化

换言之，CASCADE学习的是一个在线检索策略：它利用部署过程中观察到的奖励信号，判断哪些案例在给定的任务中更有价值。针对这一场景，本文提出了Neural-LinLogUCB算法。该算法使用Transformer建模查询与案例之间的交互表示，并通过线性头进行不确定性估计，从而适配二值反馈下的上下文赌博机学习。

从理论上看，CASCADE将整体遗憾分解为两部分：

覆盖差距：案例库是否已经包含了足够相关的历史经验。
检索遗憾：在已有的候选案例中，检索策略是否选中了最有用的那个。

随着部署过程的持续进行，成功案例逐渐被保存到案例库中，由覆盖不足带来的损失会降低；同时，检索器通过二值反馈更新，逐步减少因选择错误案例而带来的检索遗憾。在合理假设下，CASCADE可以得到无遗憾学习保证。

部署时学习：让LLM Agent在真实任务流中持续进化

因此，CASCADE不仅仅是一个记忆模块，更是一个面向部署任务流的原则化在线经验学习框架。

部署时学习基准测试：DTLBench

为了系统性地评估部署时学习能力，论文构建了DTLBench。该基准包含16个任务，覆盖医疗、法律、金融、智能运维、编程、具身决策、信息检索等多个领域，并包含单轮任务和多轮任务。

部署时学习：让LLM Agent在真实任务流中持续进化

单轮任务包括：医疗诊断、药物推荐、科室转诊、急诊分诊、法律罪名预测、刑罚预测、金融意图路由、金融情感分析、根因分析、日志故障诊断、Text-to-SQL。
多轮任务包括：经典的ALFWorld、ScienceWorld，以及两个更接近真实应用的场景——基于网页的深度搜索和电子健康记录上的复杂表格推理。

在DTLBench中，每个任务都被组织为在线查询序列。代理必须按顺序处理样本，只能利用已经发生的历史交互和反馈。这一区别使得部署步上的成功率成为核心评估指标。

主要实验结果

在12个单轮任务上，使用Qwen3-32B作为底座模型时，零样本提示的平均成功率为48.33%，非参数基线NP-CBR达到63.76%，而CASCADE则进一步提升到66.68%。这一结果表明，案例复用本身已经能带来显著收益；在此基础上，利用在线反馈来学习检索策略，可以进一步提升部署序列上的长期表现。

部署时学习：让LLM Agent在真实任务流中持续进化

与基于参数更新的基线REINFORCE+LoRA相比，CASCADE在12个单轮任务中的9个任务上取得了更优结果，并在其余任务上表现接近。同时，CASCADE不需要更新底座大语言模型的参数，学习过程的显存消耗低于4GB，适合在更轻量的部署条件下运行。

部署时学习：让LLM Agent在真实任务流中持续进化

论文还验证了CASCADE对不同底座模型规模的适用性。在Qwen3-4B、8B、14B、32B上，CASCADE在大多数设置中均能带来稳定提升。对于黑盒模型gemini-2.0-flash，CASCADE同样适用，在可评估的9个任务上将平均成功率提升到72.58%，高于零样本提示的56.58%和NP-CBR的70.68%。

这些结果说明，部署时学习并不必须依赖对大语言模型参数的访问。对于基于API服务的黑盒模型，或者不适合频繁微调的工业系统，CASCADE提供了一条通过代理外围组件进行持续适应的可行路径。

部署时学习：让LLM Agent在真实任务流中持续进化

在ALFWorld上，CASCADE将成功率从NP-CBR的62.01%提升到67.43%；在ScienceWorld上，从59.36%提升到66.84%。将CASCADE插入ReAct框架后，也能进一步提升代理在多轮环境中的任务完成率。

部署时学习：让LLM Agent在真实任务流中持续进化

在基于网页的深度搜索场景中，Agent 需要多次调用本地 RAG 工具或实时网页搜索工具，以完成多跳问答任务。引入部署时学习后，CASCADE 在本地 RAG 和实时网页搜索两种设定下均表现出显著的性能提升。

部署时学习：让LLM Agent在真实任务流中持续进化

在电子健康记录表格推理任务中，Agent 需要通过 API 查询数据库并编写相应代码。零样本提示的成功率为 20.75%，NP-CBR 方法达到了 44.02%，而 CASCADE 则进一步提升至 55.76%，同时有效减少了平均调试轮次。

小结

CASCADE 旨在回应一个在 LLM Agent 部署过程中日益凸显的关键问题：当任务持续到来、反馈不断累积，而底层模型参数保持不变时，Agent 如何在真实的交互过程中实现学习？

本文的核心贡献可归纳为以下三点：

提出部署时学习，将 LLM Agent 的部署阶段形式化为一种无需参数更新的在线经验学习；
提出 CASCADE，通过基于案例的推理与上下文赌博机学习，构建了一个原则化的部署时学习框架；
构建 DTLBench，在 16 个跨领域任务上评估 Agent 在在线任务序列中的长期表现。

从这个角度来看，CASCADE 的重点并非在于重新证明“经验有用”，而是进一步提出：部署过程本身可以被建模、评估和优化。随着 Agent 系统逐步进入更开放、更长期、更依赖工具的应用场景，如何在真实任务流中利用反馈实现稳定学习，可能将成为大模型部署后一个重要的研究方向。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/35063

部署时学习：让LLM Agent在真实任务流中持续进化

研究背景

基于案例的部署时学习：CASCADE

部署时学习基准测试：DTLBench

主要实验结果

相关推荐

构建实时语音驱动RAG系统：从架构设计到生产部署的全栈指南

TritonForge：剖析引导+LLM协同，突破Triton内核优化瓶颈，成功率42.7%最高提速5倍

300亿美元能否突破AI增长瓶颈？尤洋教授深度解析算力与智能的底层逻辑

清华大学联合美团推出3DThinker：首个让大模型“脑补”三维场景的突破性框架

A2UI协议：开启AI原生交互新时代，让智能体“说”出动态界面