推理加速

  • AgentInfer:华为诺亚方舟实验室推出工业Agent端到端加速框架,破解推理落地三大陷阱

    大模型 Agent 正从演示走向生产应用,面临着多轮推理、工具调用、长上下文记忆和并发会话等真实工作流的挑战。然而,许多看似先进的推理加速技术在落地时却可能失效:单步推理虽快,端到端性能反而下降;吞吐量虽高,高并发下却出现延迟抖动;上下文虽被压缩,Agent 却更容易迷失方向,导致交互回合数激增。 为此,华为诺亚方舟实验室与先进计算与存储实验室联合提出了 A…

    2026年3月13日
    11300
  • ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画

    ArcFlow:非线性流技术实现40倍推理加速,2步生成媲美原画 在图像生成领域,扩散模型通常需要数十步的迭代去噪才能生成高质量图像,这带来了高昂的计算成本,阻碍了实时应用。为了加速推理,常见的知识蒸馏方法试图将生成过程压缩到几步之内,但它们通常假设从噪声到图像的路径是一条直线,而预训练教师模型的实际生成轨迹往往是复杂的曲线。这种“几何失配”导致学生模型在几…

    2026年2月15日
    10600
  • 清华RAM框架:大模型学会人类式精读略读,实现12倍推理加速与性能翻倍

    RAM团队 投稿 量子位 | 公众号 QbitAI 让大模型像人类一样阅读!通过精读略读实现性能与效率的双重飞跃。 在长上下文场景中,Transformer架构的二次计算复杂度让推理速度急剧下降,而人类面对长文档时却能游刃有余——我们不会逐字阅读整本小说,而是对关键情节精读,对背景描述略读。 来自清华大学、鹏城实验室与阿里巴巴未来生活实验室的联合研究团队发现…

    2026年2月14日
    8900
  • 华为MindScale算法架构升级:行业Agent实现工作流自进化与提示词自动化,KV Cache优化提升5.7倍效率

    华为MindScale算法架构升级:行业Agent实现工作流自进化与提示词自动化,KV Cache优化提升5.7倍效率 在大模型的多种应用形态中,执行专业功能的行业Agent,无疑是提升生产效率、实现价值创造的利器。 然而,千行百业包含着大量的私域知识、专家经验和工具使用逻辑,使得智能体的行业应用构建存在各类门槛。 为了提升开发效率,业界提出了诸如Skill…

    2026年2月12日
    9400
  • 高通QuoKA:无需训练、硬件无关,88% KV缩减实现5倍推理加速,革新LLM预填充效率

    关键词:大语言模型、稀疏注意力、分块预填充、KV 选择、推理加速 无需训练、不依赖特定硬件,仅用 12% 的 KV 对就能实现接近全注意力的效果——这就是 Qualcomm AI Research 带来的全新稀疏注意力算法。 近年来,随着大型语言模型(LLM)的广泛应用,其推理效率逐渐成为制约落地的重要因素。尤其是在预填充阶段——即模型需要一次性处理整个输入…

    2026年2月11日
    9500
  • 突破GPU瓶颈:d-PLENA NPU架构实现扩散大模型采样2.53倍加速

    关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…

    2026年2月10日
    12500
  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    16000
  • 阿里VLCache革新视觉语言模型推理:仅计算2%视觉token实现16倍加速,精度近无损

    关键词:VLCache、视觉语言模型(VLM)、KV缓存复用、动态重计算、推理加速、精度保留 你有没有遇到过这样的场景:用 AI 工具连续询问同一张图片的不同问题时,每次都要等待好几秒才能得到回复?明明图片没有变,模型却要重复处理整幅图像,造成大量冗余计算。 VLCACHE: Computing 2% Vision Tokens and Reusing 98…

    2026年1月8日
    28300
  • 微信AI突破扩散模型推理瓶颈:WeDLM实现vLLM部署3倍加速,低熵场景超10倍

    腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性…

    2026年1月3日
    19000
  • 清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

    在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…

    2025年12月26日
    20800