AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。

为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 AgentInfer:一个面向工业级 Agent 的端到端加速框架。该框架的核心在于对“推理架构设计”与“推理服务系统”进行协同优化。

AgentInfer 并非单一技巧,而是一套系统化、模块化的解决方案。其各个模块既可独立部署并带来收益,也能组合叠加,并在高并发、多会话、长上下文的真实负载下保持稳定。

AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

  • 论文标题:Towards Efficient Agents: A Co-Design of Inference Architecture and System
  • arXiv 链接:https://arxiv.org/pdf/2512.18337

为何 Agent “加速”必须采用端到端视角?

在传统大语言模型服务中,我们习惯于用每秒生成令牌数或单次请求延迟来衡量优化效果。但 Agent 的本质是一个持续运行的“思考-行动-观察”循环:
* 每次“思考”都需携带不断增长的上下文。
* “行动/观察”会引入异构工具延迟与并行请求。
* 一旦某一步骤的推理质量下降,就可能触发纠错、重试或冗余搜索,导致回合数增加,整体效率反而降低。

研究团队在分析中总结了 Agent 落地场景的三个典型挑战:

  1. 量化陷阱:量化技术虽能提升单步推理速度,但可能损害模型精度,触发大量自我修复回路,最终导致端到端耗时增加。
    AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱
  2. 文本总结的可靠性问题:尽管大量研究展示可通过总结过程信息来压缩令牌,但实际测试发现,引入总结后,单轮交互虽变短,整体交互轮次却可能增加,甚至影响任务精度。
    AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱
  3. 记忆持久性瓶颈:在高并发场景下,常见的短作业优先调度策略会频繁淘汰长上下文会话的键值缓存,导致下一轮推理被迫重新计算大量前缀,产生显著的延迟尖刺,损害系统吞吐与稳定性。
    AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

结论显而易见:Agent 的效率优化并非追求“每一步更快”,而是致力于实现“更少的无效回合、更少的关键重算、更高的跨轮次信息复用”。

AgentInfer:四个可独立部署、增益可叠加的模块

AgentInfer 将 Agent 的端到端瓶颈分解为四类问题,并对应提供了四个互补的优化模块。它们作用于不同层次:有的旨在减少“调用大模型的次数”,有的用于控制“上下文长度增长”,有的提升“高并发下的缓存命中率”,有的则加速“令牌级生成过程”。

AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

1) AgentCollab:难度感知的大小模型协作
核心思路是将常规工作交由小模型处理,而将关键规划与陷入停滞的推理任务切换至大模型。其关键不在于静态任务划分,而在于一个结构化的“进展自评”机制:每一步评估“是否取得实质性进展”,若停滞则升级至大模型介入;恢复进展后则降级回小模型继续执行。这使得系统在工业场景中更智能:多数时间使用经济的小模型推进流程,仅在真正困难的环节调用昂贵的大模型,从而在质量与成本间寻求更优平衡。

2) AgentCompress:语义压缩与异步蒸馏
在深度研究或搜索型 Agent 任务中,上下文会因搜索结果、网页内容、工具输出而迅速膨胀,导致序列长度激增和注意力计算成本上升。AgentCompress 主要完成两项工作:
* 搜索结果过滤排序:首先使用轻量模型对 URL 和摘要进行排序与剪枝,减少无关内容进入后续的爬取与文档问答流程,降低并行工具调用的压力。
* 异步上下文蒸馏:压缩来自工具输出等“环境交互记忆”,但关键在于保留“推理轨迹记忆”。团队观察到,仅压缩环境信息会导致 Agent“失忆”,无法准确判断任务完成状态,从而引发回合数暴涨;只有同时保留推理轨迹,才能维持认知连续性,使压缩真正带来端到端收益。
AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

3) AgentSched:KV-Cache 感知的混合调度
在多会话并发场景中,短请求与超长上下文请求同时存在。纯粹的先到先服务调度易被长请求阻塞,而纯粹的短作业优先调度则会牺牲长会话的键值缓存持久性,导致前缀反复重算和延迟尖刺。AgentSched 引入一个可解释的控制信号,在“优先保障短请求低延迟”与“优先保障高 KV 缓存复用率”之间进行自适应切换:
* 当缓存资源宽松时,策略更偏向短作业优先,快速响应短请求。
* 当缓存资源紧张时,策略更偏向 KV 感知,保护长会话的上下文,减少昂贵的预填充计算重算。
AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

4) AgentSAM:跨会话投机解码
Agent 推理中常出现高度重复的模式,例如同一任务的多轮提问、相似用户请求的模板复用、检索证据被多次引用等。AgentSAM 利用后缀自动机,将当前会话与语义相似的历史会话组合起来,为投机解码提供命中率更高的候选草稿。同时,它采用异步构建机制,避免在长上下文下构建后缀自动机阻塞首个令牌的生成延迟,并配备自适应开关:当批处理规模过大、投机收益下降时自动回退,避免“为投机而投机”带来的负面效应。

工业可用性验证:高并发下 QPS 持续提升

在 BrowseComp-zh 和 DeepDiver 等深度研究型 Agent 基准测试中,团队将四个模块集成到同一服务栈进行端到端评估。

AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

结果揭示了两点关键发现:

1) 不仅是“单请求优化”,更是高并发下稳定的系统级提升
当并发会话数增加时(例如从 4 提升至 16),系统仍能稳定获得性能收益,QPS 提升最高可达 2.52 倍。这表明优化不仅对单次推理有效,更能在资源争用、缓存压力、长短请求混合的真实负载下保持稳定。

2) 模块化、可组合、增益可叠加
团队进行了逐步叠加实验:
* 仅启用 AgentCollab 即可带来提升。
* 叠加 AgentCompress 和 AgentSched 后,收益持续增长。
* 最后加入 AgentSAM,整体性能得到进一步提升(且在高并发下能根据收益自动启停投机解码,避免副作用)。
这正是 AgentInfer 的设计目标:每个组件解决一类确定的工业瓶颈;组合使用时,增益能够协同叠加,而非相互抵消。

结语:Agent 的效率问题本质上是系统问题

AgentInfer 强调的并非将某个单一指标推向极致,而是得出了一个更贴近工程现实的结论:真正能够落地的 Agent 加速,必须同时对推理架构与推理服务系统进行优化,并且以端到端任务完成为最终目标。

实验结果表明,AgentInfer 能够将无效的令牌消耗降低 50% 以上,实现 1.8 至 2.5 倍的端到端加速,同时保持任务准确率稳定。

当 Agent 进入生产环境,决定用户体验的往往不是单步的令牌生成速度,而是其“能否少走弯路、减少重复计算、承受高并发压力”。这也是我们将 AgentInfer 定位为一套“自演进引擎”的原因:它旨在让 Agent 在长周期任务与高并发环境中,依然保持高效的执行与稳定的认知能力。

如需投稿或寻求报道,请联系:liyazhou@jiqizhixin.com


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25484

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

    为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…

    2026年2月25日
    11100
  • DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

    DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升 当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外…

    2026年2月27日
    15900
  • GPU上LLM推理性能瓶颈深度解析:从两阶段特性到MoE/RAG优化策略

    关键词:LLM Inference 、GPU、 Two-Phase Heterogeneity 、Microarchitectural Analysis 、 System Scaling 、Emerging Paradigms 我们的研究从观测到预测系统性推进:识别性能现象、揭示硬件层面原因、验证系统行为、探索新范式。 我们的研究结果为理解 LLM 推理建立…

    2025年12月24日
    18300
  • Meta REFRAG革新RAG架构:30倍提速、16倍上下文、成本减半,彻底解决上下文垃圾问题

    你是否遇到过这样的困扰:只想让大模型读取10段关键资料,它却被迫处理100段,导致token消耗激增,响应速度却异常缓慢? 这一行业普遍痛点,如今被Meta提出的全新方案彻底解决。 他们刚刚开源了一个名为 REFRAG 的革新性RAG架构。其核心思想极为直接:在信息输入大模型前,将无关的上下文极度压缩,仅保留并提供真正有用的部分。 实测数据令人印象深刻:* …

    2025年11月23日
    18100
  • DeepSeek R1爆更86页论文:开源模型如何用强化学习实现推理能力突破

    R1论文暴涨至86页!DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事! 全网震撼!两天前,DeepSeek悄无声息地将R1的论文从原来的22页大幅更新至86页。这篇全新的论文证明,仅通过强化学习就能显著提升AI的推理能力。DeepSeek似乎在憋大招,甚至有网友推测,这种纯强化学习方法或许会出现在未来的R2版本中。 此次更新,将原始论文升级为…

    2026年1月8日
    19700