大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。
为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 AgentInfer:一个面向工业级 Agent 的端到端加速框架。该框架的核心在于对“推理架构设计”与“推理服务系统”进行协同优化。
AgentInfer 并非单一技巧,而是一套系统化、模块化的解决方案。其各个模块既可独立部署并带来收益,也能组合叠加,并在高并发、多会话、长上下文的真实负载下保持稳定。

- 论文标题:Towards Efficient Agents: A Co-Design of Inference Architecture and System
- arXiv 链接:https://arxiv.org/pdf/2512.18337
为何 Agent “加速”必须采用端到端视角?
在传统大语言模型服务中,我们习惯于用每秒生成令牌数或单次请求延迟来衡量优化效果。但 Agent 的本质是一个持续运行的“思考-行动-观察”循环:
* 每次“思考”都需携带不断增长的上下文。
* “行动/观察”会引入异构工具延迟与并行请求。
* 一旦某一步骤的推理质量下降,就可能触发纠错、重试或冗余搜索,导致回合数增加,整体效率反而降低。
研究团队在分析中总结了 Agent 落地场景的三个典型挑战:
- 量化陷阱:量化技术虽能提升单步推理速度,但可能损害模型精度,触发大量自我修复回路,最终导致端到端耗时增加。

- 文本总结的可靠性问题:尽管大量研究展示可通过总结过程信息来压缩令牌,但实际测试发现,引入总结后,单轮交互虽变短,整体交互轮次却可能增加,甚至影响任务精度。

- 记忆持久性瓶颈:在高并发场景下,常见的短作业优先调度策略会频繁淘汰长上下文会话的键值缓存,导致下一轮推理被迫重新计算大量前缀,产生显著的延迟尖刺,损害系统吞吐与稳定性。

结论显而易见:Agent 的效率优化并非追求“每一步更快”,而是致力于实现“更少的无效回合、更少的关键重算、更高的跨轮次信息复用”。
AgentInfer:四个可独立部署、增益可叠加的模块
AgentInfer 将 Agent 的端到端瓶颈分解为四类问题,并对应提供了四个互补的优化模块。它们作用于不同层次:有的旨在减少“调用大模型的次数”,有的用于控制“上下文长度增长”,有的提升“高并发下的缓存命中率”,有的则加速“令牌级生成过程”。

1) AgentCollab:难度感知的大小模型协作
核心思路是将常规工作交由小模型处理,而将关键规划与陷入停滞的推理任务切换至大模型。其关键不在于静态任务划分,而在于一个结构化的“进展自评”机制:每一步评估“是否取得实质性进展”,若停滞则升级至大模型介入;恢复进展后则降级回小模型继续执行。这使得系统在工业场景中更智能:多数时间使用经济的小模型推进流程,仅在真正困难的环节调用昂贵的大模型,从而在质量与成本间寻求更优平衡。
2) AgentCompress:语义压缩与异步蒸馏
在深度研究或搜索型 Agent 任务中,上下文会因搜索结果、网页内容、工具输出而迅速膨胀,导致序列长度激增和注意力计算成本上升。AgentCompress 主要完成两项工作:
* 搜索结果过滤排序:首先使用轻量模型对 URL 和摘要进行排序与剪枝,减少无关内容进入后续的爬取与文档问答流程,降低并行工具调用的压力。
* 异步上下文蒸馏:压缩来自工具输出等“环境交互记忆”,但关键在于保留“推理轨迹记忆”。团队观察到,仅压缩环境信息会导致 Agent“失忆”,无法准确判断任务完成状态,从而引发回合数暴涨;只有同时保留推理轨迹,才能维持认知连续性,使压缩真正带来端到端收益。
3) AgentSched:KV-Cache 感知的混合调度
在多会话并发场景中,短请求与超长上下文请求同时存在。纯粹的先到先服务调度易被长请求阻塞,而纯粹的短作业优先调度则会牺牲长会话的键值缓存持久性,导致前缀反复重算和延迟尖刺。AgentSched 引入一个可解释的控制信号,在“优先保障短请求低延迟”与“优先保障高 KV 缓存复用率”之间进行自适应切换:
* 当缓存资源宽松时,策略更偏向短作业优先,快速响应短请求。
* 当缓存资源紧张时,策略更偏向 KV 感知,保护长会话的上下文,减少昂贵的预填充计算重算。
4) AgentSAM:跨会话投机解码
Agent 推理中常出现高度重复的模式,例如同一任务的多轮提问、相似用户请求的模板复用、检索证据被多次引用等。AgentSAM 利用后缀自动机,将当前会话与语义相似的历史会话组合起来,为投机解码提供命中率更高的候选草稿。同时,它采用异步构建机制,避免在长上下文下构建后缀自动机阻塞首个令牌的生成延迟,并配备自适应开关:当批处理规模过大、投机收益下降时自动回退,避免“为投机而投机”带来的负面效应。
工业可用性验证:高并发下 QPS 持续提升
在 BrowseComp-zh 和 DeepDiver 等深度研究型 Agent 基准测试中,团队将四个模块集成到同一服务栈进行端到端评估。

结果揭示了两点关键发现:
1) 不仅是“单请求优化”,更是高并发下稳定的系统级提升
当并发会话数增加时(例如从 4 提升至 16),系统仍能稳定获得性能收益,QPS 提升最高可达 2.52 倍。这表明优化不仅对单次推理有效,更能在资源争用、缓存压力、长短请求混合的真实负载下保持稳定。
2) 模块化、可组合、增益可叠加
团队进行了逐步叠加实验:
* 仅启用 AgentCollab 即可带来提升。
* 叠加 AgentCompress 和 AgentSched 后,收益持续增长。
* 最后加入 AgentSAM,整体性能得到进一步提升(且在高并发下能根据收益自动启停投机解码,避免副作用)。
这正是 AgentInfer 的设计目标:每个组件解决一类确定的工业瓶颈;组合使用时,增益能够协同叠加,而非相互抵消。
结语:Agent 的效率问题本质上是系统问题
AgentInfer 强调的并非将某个单一指标推向极致,而是得出了一个更贴近工程现实的结论:真正能够落地的 Agent 加速,必须同时对推理架构与推理服务系统进行优化,并且以端到端任务完成为最终目标。
实验结果表明,AgentInfer 能够将无效的令牌消耗降低 50% 以上,实现 1.8 至 2.5 倍的端到端加速,同时保持任务准确率稳定。
当 Agent 进入生产环境,决定用户体验的往往不是单步的令牌生成速度,而是其“能否少走弯路、减少重复计算、承受高并发压力”。这也是我们将 AgentInfer 定位为一套“自演进引擎”的原因:它旨在让 Agent 在长周期任务与高并发环境中,依然保持高效的执行与稳定的认知能力。
如需投稿或寻求报道,请联系:liyazhou@jiqizhixin.com
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25484
