AgentInfer
-
AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱
大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。 为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…