当大型语言模型代理(LLM Agent)步入真实世界应用场景时,它面对的已不再是静态的、一次性完成的测试数据集,而是源源不断、持续抵达的任务流。
每一次工具调用、代码执行、网页搜索或任务完成,都会随之产生反馈信号:操作是成功还是失败?收集到的证据是否充足?所选工具是否恰当?这些在部署阶段自然涌现的信号,能否反过来成为代理自我优化的养分?
研究团队的最新成果提出了“部署时学习”(Deployment-Time Learning, DTL)这一概念,并进一步研发了CASCADE系统。其核心并非简单地积累经验,而是让代理在在线任务流中学会如何“挑选”经验:面对当前任务时,应当参考过去的哪一次交互,才能做出更优决策?

- 论文标题:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deployment
- 论文链接:https://arxiv.org/abs/2605.06702
- 代码仓库:https://github.com/guosyjlu/CASCADE
- 基准测试:https://huggingface.co/datasets/guosy/DTLBench
研究背景
目前,关于代理经验学习的相关工作,其常见设定大致可分为两类:
第一类延续了传统的机器学习范式:系统首先在训练集上进行学习,例如微调模型、优化提示词、构建记忆库或技能库,随后在测试集上评估其性能。
第二类则侧重于运行时学习,即系统在同一个数据集上先进行多轮学习,再观察其性能提升。
这些设定均具备研究价值,然而真实的部署环境还包含一个至关重要的维度:时间。在真实系统中,任务是按顺序依次到达的。代理无法预知未来的任务,也不能随意回溯去重做某个请求。每一步操作,既是一次服务,也是一次反馈收集;当前的选择不仅影响本次任务的结果,也可能对后续的策略产生影响。

因此,CASCADE将部署时学习定义为一个在线学习问题。在第t步,代理接收到一个查询,生成答案或行动轨迹,环境则返回成功或失败的二值反馈。代理的目标不再仅仅是优化单个任务,而是提升整个部署序列上的长期成功率;等价地,也就是降低在线学习中的“遗憾”(Regret)。这一设定更贴近工业系统中的持续服务过程,也为评估代理的部署适应能力提供了清晰的形式化框架。
基于案例的部署时学习:CASCADE
在部署时学习的设定下,基座模型保持固定,不对其参数进行在线更新。学习过程发生在代理的外围组件中,特别是记忆和检索机制。CASCADE以基于案例的推理(Case-Based Reasoning, CBR)为底层框架。当新任务来临时,系统从历史案例库中检索出相关的成功案例,将其作为上下文提供给大语言模型,再根据环境反馈决定是否保留新的案例。这一流程包含四个步骤:
- 检索(Retrieve):从不断增长的案例库中检索候选案例。
- 复用(Reuse):将案例作为上下文,辅助大语言模型解决当前查询。
- 修改(Revise):生成最终的答案或行动轨迹。
- 保存(Retain):如果环境反馈为成功,则将本次交互保存为新的案例。
在这个4R循环中,CASCADE的关键在于:它将“检索哪个案例”建模为一个上下文赌博机(Contextual Bandit)问题,从而在检索过程中实现了探索与利用的权衡。在每个时间步,当前查询是上下文,候选案例是可选择的动作。代理选择某个案例后,大语言模型基于该案例生成结果,环境返回成功或失败的反馈。检索器随后利用该反馈更新策略,以便在后续任务中更好地权衡利用与探索。

换言之,CASCADE学习的是一个在线检索策略:它利用部署过程中观察到的奖励信号,判断哪些案例在给定的任务中更有价值。针对这一场景,本文提出了Neural-LinLogUCB算法。该算法使用Transformer建模查询与案例之间的交互表示,并通过线性头进行不确定性估计,从而适配二值反馈下的上下文赌博机学习。
从理论上看,CASCADE将整体遗憾分解为两部分:
- 覆盖差距:案例库是否已经包含了足够相关的历史经验。
- 检索遗憾:在已有的候选案例中,检索策略是否选中了最有用的那个。
随着部署过程的持续进行,成功案例逐渐被保存到案例库中,由覆盖不足带来的损失会降低;同时,检索器通过二值反馈更新,逐步减少因选择错误案例而带来的检索遗憾。在合理假设下,CASCADE可以得到无遗憾学习保证。

因此,CASCADE不仅仅是一个记忆模块,更是一个面向部署任务流的原则化在线经验学习框架。
部署时学习基准测试:DTLBench
为了系统性地评估部署时学习能力,论文构建了DTLBench。该基准包含16个任务,覆盖医疗、法律、金融、智能运维、编程、具身决策、信息检索等多个领域,并包含单轮任务和多轮任务。

单轮任务包括:医疗诊断、药物推荐、科室转诊、急诊分诊、法律罪名预测、刑罚预测、金融意图路由、金融情感分析、根因分析、日志故障诊断、Text-to-SQL。
多轮任务包括:经典的ALFWorld、ScienceWorld,以及两个更接近真实应用的场景——基于网页的深度搜索和电子健康记录上的复杂表格推理。
在DTLBench中,每个任务都被组织为在线查询序列。代理必须按顺序处理样本,只能利用已经发生的历史交互和反馈。这一区别使得部署步上的成功率成为核心评估指标。
主要实验结果
在12个单轮任务上,使用Qwen3-32B作为底座模型时,零样本提示的平均成功率为48.33%,非参数基线NP-CBR达到63.76%,而CASCADE则进一步提升到66.68%。这一结果表明,案例复用本身已经能带来显著收益;在此基础上,利用在线反馈来学习检索策略,可以进一步提升部署序列上的长期表现。

与基于参数更新的基线REINFORCE+LoRA相比,CASCADE在12个单轮任务中的9个任务上取得了更优结果,并在其余任务上表现接近。同时,CASCADE不需要更新底座大语言模型的参数,学习过程的显存消耗低于4GB,适合在更轻量的部署条件下运行。

论文还验证了CASCADE对不同底座模型规模的适用性。在Qwen3-4B、8B、14B、32B上,CASCADE在大多数设置中均能带来稳定提升。对于黑盒模型gemini-2.0-flash,CASCADE同样适用,在可评估的9个任务上将平均成功率提升到72.58%,高于零样本提示的56.58%和NP-CBR的70.68%。
这些结果说明,部署时学习并不必须依赖对大语言模型参数的访问。对于基于API服务的黑盒模型,或者不适合频繁微调的工业系统,CASCADE提供了一条通过代理外围组件进行持续适应的可行路径。

在ALFWorld上,CASCADE将成功率从NP-CBR的62.01%提升到67.43%;在ScienceWorld上,从59.36%提升到66.84%。将CASCADE插入ReAct框架后,也能进一步提升代理在多轮环境中的任务完成率。

在基于网页的深度搜索场景中,Agent 需要多次调用本地 RAG 工具或实时网页搜索工具,以完成多跳问答任务。引入部署时学习后,CASCADE 在本地 RAG 和实时网页搜索两种设定下均表现出显著的性能提升。

在电子健康记录表格推理任务中,Agent 需要通过 API 查询数据库并编写相应代码。零样本提示的成功率为 20.75%,NP-CBR 方法达到了 44.02%,而 CASCADE 则进一步提升至 55.76%,同时有效减少了平均调试轮次。
小结
CASCADE 旨在回应一个在 LLM Agent 部署过程中日益凸显的关键问题:当任务持续到来、反馈不断累积,而底层模型参数保持不变时,Agent 如何在真实的交互过程中实现学习?
本文的核心贡献可归纳为以下三点:
- 提出部署时学习,将 LLM Agent 的部署阶段形式化为一种无需参数更新的在线经验学习;
- 提出 CASCADE,通过基于案例的推理与上下文赌博机学习,构建了一个原则化的部署时学习框架;
- 构建 DTLBench,在 16 个跨领域任务上评估 Agent 在在线任务序列中的长期表现。
从这个角度来看,CASCADE 的重点并非在于重新证明“经验有用”,而是进一步提出:部署过程本身可以被建模、评估和优化。随着 Agent 系统逐步进入更开放、更长期、更依赖工具的应用场景,如何在真实任务流中利用反馈实现稳定学习,可能将成为大模型部署后一个重要的研究方向。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/35063

