AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

大模型 Agent 正从演示走向生产应用，面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而，许多看似先进的推理加速技术在落地时却可能失效：单步推理虽快，端到端性能反而下降；吞吐量虽高，高并发下却出现延迟抖动；上下文虽被压缩，Agent 却更容易迷失方向，导致交互回合数激增。

为此，华为诺亚方舟实验室与先进计算与存储实验室联合提出了 AgentInfer：一个面向工业级 Agent 的端到端加速框架。该框架的核心在于对“推理架构设计”与“推理服务系统”进行协同优化。

AgentInfer 并非单一技巧，而是一套系统化、模块化的解决方案。其各个模块既可独立部署并带来收益，也能组合叠加，并在高并发、多会话、长上下文的真实负载下保持稳定。

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

论文标题：Towards Efficient Agents: A Co-Design of Inference Architecture and System
arXiv 链接：https://arxiv.org/pdf/2512.18337

为何 Agent “加速”必须采用端到端视角？

在传统大语言模型服务中，我们习惯于用每秒生成令牌数或单次请求延迟来衡量优化效果。但 Agent 的本质是一个持续运行的“思考-行动-观察”循环：
* 每次“思考”都需携带不断增长的上下文。
* “行动/观察”会引入异构工具延迟与并行请求。
* 一旦某一步骤的推理质量下降，就可能触发纠错、重试或冗余搜索，导致回合数增加，整体效率反而降低。

研究团队在分析中总结了 Agent 落地场景的三个典型挑战：

量化陷阱：量化技术虽能提升单步推理速度，但可能损害模型精度，触发大量自我修复回路，最终导致端到端耗时增加。
文本总结的可靠性问题：尽管大量研究展示可通过总结过程信息来压缩令牌，但实际测试发现，引入总结后，单轮交互虽变短，整体交互轮次却可能增加，甚至影响任务精度。
记忆持久性瓶颈：在高并发场景下，常见的短作业优先调度策略会频繁淘汰长上下文会话的键值缓存，导致下一轮推理被迫重新计算大量前缀，产生显著的延迟尖刺，损害系统吞吐与稳定性。

结论显而易见：Agent 的效率优化并非追求“每一步更快”，而是致力于实现“更少的无效回合、更少的关键重算、更高的跨轮次信息复用”。

AgentInfer：四个可独立部署、增益可叠加的模块

AgentInfer 将 Agent 的端到端瓶颈分解为四类问题，并对应提供了四个互补的优化模块。它们作用于不同层次：有的旨在减少“调用大模型的次数”，有的用于控制“上下文长度增长”，有的提升“高并发下的缓存命中率”，有的则加速“令牌级生成过程”。

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

1) AgentCollab：难度感知的大小模型协作
核心思路是将常规工作交由小模型处理，而将关键规划与陷入停滞的推理任务切换至大模型。其关键不在于静态任务划分，而在于一个结构化的“进展自评”机制：每一步评估“是否取得实质性进展”，若停滞则升级至大模型介入；恢复进展后则降级回小模型继续执行。这使得系统在工业场景中更智能：多数时间使用经济的小模型推进流程，仅在真正困难的环节调用昂贵的大模型，从而在质量与成本间寻求更优平衡。

2) AgentCompress：语义压缩与异步蒸馏
在深度研究或搜索型 Agent 任务中，上下文会因搜索结果、网页内容、工具输出而迅速膨胀，导致序列长度激增和注意力计算成本上升。AgentCompress 主要完成两项工作：
* 搜索结果过滤排序：首先使用轻量模型对 URL 和摘要进行排序与剪枝，减少无关内容进入后续的爬取与文档问答流程，降低并行工具调用的压力。
* 异步上下文蒸馏：压缩来自工具输出等“环境交互记忆”，但关键在于保留“推理轨迹记忆”。团队观察到，仅压缩环境信息会导致 Agent“失忆”，无法准确判断任务完成状态，从而引发回合数暴涨；只有同时保留推理轨迹，才能维持认知连续性，使压缩真正带来端到端收益。
AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

3) AgentSched：KV-Cache 感知的混合调度
在多会话并发场景中，短请求与超长上下文请求同时存在。纯粹的先到先服务调度易被长请求阻塞，而纯粹的短作业优先调度则会牺牲长会话的键值缓存持久性，导致前缀反复重算和延迟尖刺。AgentSched 引入一个可解释的控制信号，在“优先保障短请求低延迟”与“优先保障高 KV 缓存复用率”之间进行自适应切换：
* 当缓存资源宽松时，策略更偏向短作业优先，快速响应短请求。
* 当缓存资源紧张时，策略更偏向 KV 感知，保护长会话的上下文，减少昂贵的预填充计算重算。
AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

4) AgentSAM：跨会话投机解码
Agent 推理中常出现高度重复的模式，例如同一任务的多轮提问、相似用户请求的模板复用、检索证据被多次引用等。AgentSAM 利用后缀自动机，将当前会话与语义相似的历史会话组合起来，为投机解码提供命中率更高的候选草稿。同时，它采用异步构建机制，避免在长上下文下构建后缀自动机阻塞首个令牌的生成延迟，并配备自适应开关：当批处理规模过大、投机收益下降时自动回退，避免“为投机而投机”带来的负面效应。

工业可用性验证：高并发下 QPS 持续提升

在 BrowseComp-zh 和 DeepDiver 等深度研究型 Agent 基准测试中，团队将四个模块集成到同一服务栈进行端到端评估。

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

结果揭示了两点关键发现：

1) 不仅是“单请求优化”，更是高并发下稳定的系统级提升
当并发会话数增加时（例如从 4 提升至 16），系统仍能稳定获得性能收益，QPS 提升最高可达 2.52 倍。这表明优化不仅对单次推理有效，更能在资源争用、缓存压力、长短请求混合的真实负载下保持稳定。

2) 模块化、可组合、增益可叠加
团队进行了逐步叠加实验：
* 仅启用 AgentCollab 即可带来提升。
* 叠加 AgentCompress 和 AgentSched 后，收益持续增长。
* 最后加入 AgentSAM，整体性能得到进一步提升（且在高并发下能根据收益自动启停投机解码，避免副作用）。
这正是 AgentInfer 的设计目标：每个组件解决一类确定的工业瓶颈；组合使用时，增益能够协同叠加，而非相互抵消。

结语：Agent 的效率问题本质上是系统问题

AgentInfer 强调的并非将某个单一指标推向极致，而是得出了一个更贴近工程现实的结论：真正能够落地的 Agent 加速，必须同时对推理架构与推理服务系统进行优化，并且以端到端任务完成为最终目标。

实验结果表明，AgentInfer 能够将无效的令牌消耗降低 50% 以上，实现 1.8 至 2.5 倍的端到端加速，同时保持任务准确率稳定。

当 Agent 进入生产环境，决定用户体验的往往不是单步的令牌生成速度，而是其“能否少走弯路、减少重复计算、承受高并发压力”。这也是我们将 AgentInfer 定位为一套“自演进引擎”的原因：它旨在让 Agent 在长周期任务与高并发环境中，依然保持高效的执行与稳定的认知能力。

如需投稿或寻求报道，请联系：liyazhou@jiqizhixin.com

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25484

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

为何 Agent “加速”必须采用端到端视角？

AgentInfer：四个可独立部署、增益可叠加的模块

工业可用性验证：高并发下 QPS 持续提升

结语：Agent 的效率问题本质上是系统问题

相关推荐

揭秘浮点累加顺序黑盒：FPRev工具如何解决异构计算中的数值可复现性难题

ArcLight：突破众核CPU推理瓶颈，NUMA感知架构让LLM推理性能飙升46%

谷歌TurboQuant算法震撼发布：KV Cache压缩6倍精度零损失，AI推理迎来内存革命

DeepSeek R1爆更86页论文：开源模型如何用强化学习实现推理能力突破

性能远超 vLLM 和 SGLang！TileRT：编译器驱动下的 Tile-Based Runtime