端到端优化

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

大模型 Agent 正从演示走向生产应用，面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而，许多看似先进的推理加速技术在落地时却可能失效：单步推理虽快，端到端性能反而下降；吞吐量虽高，高并发下却出现延迟抖动；上下文虽被压缩，Agent 却更容易迷失方向，导致交互回合数激增。为此，华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…

2026年3月13日

343000

AI产业动态

T-MAN：NPU大模型推理的革命性方案，解码速度提升3.1倍，能效比领先84%

关键词：T-MAN、查找表、低比特量化、NPU 推理、端到端优化当大模型遇上手机 NPU，推理速度反而比 CPU 还慢？USTC、微软研究院、清华等研究团队提出统一查找表方案，同时解决速度、能耗与精度三大难题。近年来，大语言模型（LLM）正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gem…

2026年1月14日

382000

大模型推理

LENS：首个基于强化推理的分割大模型，突破传统SFT能力天花板

文本提示图像分割（Text-prompted image segmentation）是实现精细化视觉理解的关键技术，在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令，在复杂的视觉场景中定位并分割出任意目标。然而，当前主流的技术路径，如基于监督式微调（Supervised Fine-Tuning, SFT）的方法，正…

2025年12月29日

328000