端到端优化

  • AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

    大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。 为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…

    5天前
    10200
  • T-MAN:NPU大模型推理的革命性方案,解码速度提升3.1倍,能效比领先84%

    关键词:T-MAN、查找表 、 低比特量化 、NPU 推理 、端到端优化 当大模型遇上手机 NPU,推理速度反而比 CPU 还慢?USTC、微软研究院、清华等研究团队提出统一查找表方案 ,同时解决速度、能耗与精度三大难题。 近年来,大语言模型(LLM)正逐步“入住”我们的手机、电脑等消费设备。无论是苹果的 Apple Intelligence、谷歌的 Gem…

    2026年1月14日
    18700
  • LENS:首个基于强化推理的分割大模型,突破传统SFT能力天花板

    文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重要的战略意义。该技术使机器能够根据自然语言指令,在复杂的视觉场景中定位并分割出任意目标。 然而,当前主流的技术路径,如基于监督式微调(Supervised Fine-Tuning, SFT)的方法,正…

    2025年12月29日
    20100