大模型推理

  • 智谱Scaling Pain揭秘:高负载下的隐形Bug与避坑指南

    Scaling即正义?智谱对此只能无奈摇头——过程极其痛苦,压力山大。 智谱最新发布的一篇技术博客画风突变,不再一味输出硬核技术,而是大倒苦水,详细披露了从GLM-5以来遭遇的各种奇葩踩坑经历,官方将其称为 「Scaling Pain」。 我们的推理基础设施正承受着前所未有的压力,每天需处理数亿次Coding Agent调用。 过去几周,部分用户在使用GLM…

    2026年5月2日
    19400
  • 3D堆叠+全栈协同:DeepStack如何让LLM推理吞吐飙升9.5倍?

    DeepStack 的核心成果在于,它通过将 3D 堆叠内存的底层特性与全并行策略在早期设计阶段深度融合,实现了高达 9.5 倍的推理吞吐量提升。 该框架的主要贡献是一套兼具高精度与高效率的全栈设计空间探索(DSE)方法论。DeepStack 首次将利特尔法则约束、事务感知带宽模型、Bank 冲突分析、热功耗 DVFS 反馈、全部七种并行策略、双阶段网络抽象…

    大模型推理 2026年4月28日
    18800
  • 突破极端边缘计算极限:AI引擎如何让科学推理性能飙升4倍,打破FPGA部署瓶颈

    突破极端边缘计算极限:AI引擎如何让科学推理性能飙升4倍,打破FPGA部署瓶颈 第1/5部分:极端边缘计算的性能困局与AI引擎的破局之道 在极端边缘科学实时推理场景中,系统面临着极为严苛的约束条件:必须实现微秒级的端到端延迟、维持数十兆赫兹的吞吐速率,并且所有模型权重都必须完整地驻留在芯片上,无法依赖外部存储器。 传统方案依赖FPGA可编程逻辑(PL)配合H…

    大模型推理 2026年4月27日
    14700
  • AMD AITER深度解析:融合四种后端的MoE加速引擎,GEMM自动调优与JIT编译实战

    在大型模型推理的战场上,算子的性能是构建一切的基础。随着Transformer模型的参数规模突破千亿级别,并且MoE架构逐渐成为行业标配,单一的Kernel实现早已无法满足不同形状、不同精度以及不同硬件代际的多样化需求。 AITER(面向ROCm的AI张量引擎)是AMD推出的一款高性能AI算子库,专为基于ROCm的推理与训练负载提供经过深度优化的GPU核心运…

    大模型推理 2026年4月27日
    16900
  • Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍

    中科院计算所发布晶圆级存算一体芯片Ouroboros,大模型推理吞吐量最高提升9.1倍 当前大模型的发展呈现出模型规模持续攀升的趋势,对计算硬件的需求也随之快速增长。从千亿参数到万亿规模,每一次迭代都对硬件资源提出了更高的要求。 在这一背景下,一个关键的“隐性开销”日益凸显:数据搬运。在传统计算架构中,一次推理过程往往需要在DRAM、SRAM与计算单元之间反…

    2026年4月21日
    33700
  • Fleet:多芯粒GPU时代的新编程范式,破解大模型推理效率瓶颈

    一、架构断裂:当“单片思维”撞上“芯粒现实” 现代GPU架构已转向基于芯粒(Chiplet)的多芯片设计,例如AMD Instinct MI300X/MI350和NVIDIA Blackwell。然而,主流的CUDA/HIP执行模型并未完全适应这一根本性的架构变迁。一个核心痛点是:编程模型缺乏直接的方法来表达工作组群之间的数据亲和性,或将计算任务限定到特定芯…

    2026年4月21日
    30500
  • TorchInductor引入CuteDSL后端:GPU推理性能提升1.78倍,自动调优技术革新GEMM计算

    关键词:TorchInductor、CuteDSL、GEMM、GPU 推理、自动调优 “在抽象-性能权衡的赛道上,每一种优秀的领域特定语言(DSL)都占据着独特位置。” PyTorch 的 TorchInductor 此前已支持 Triton、CUTLASS(C++)和 cuBLAS 三大自动调优后端。CuteDSL 的加入,不仅填补了由 Python 编写…

    2026年4月20日
    32600
  • Kimi发布PrFaaS新范式:让大模型推理跨机房调度成为现实,吞吐量提升54%

    长上下文推理新突破:Kimi提出PrFaaS范式,实现跨机房调度 将长上下文能力做到极致的Kimi,近日联合清华大学团队,在大模型推理架构上取得关键进展。 他们提出了一种名为 Prefill-as-a-Service(PrFaaS) 的全新范式,即“预填充即服务”。其核心突破在于,首次实现了 KV Cache 能够跨数据中心进行传输,从而将大模型推理中的 P…

    2026年4月20日
    63800
  • ArcLight:突破众核CPU推理瓶颈,NUMA感知架构让LLM推理性能飙升46%

    当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而,主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。 这类平台普遍采用非统一内存访问(NUMA)架构,其跨节点的内存访问延迟远高于本地访问,形成了严重的“跨 NUMA 内存访问墙”,成为制约 LLM 推理性能的核心瓶颈。 现…

    2026年4月16日
    23800
  • OmniInfer:统一多后端引擎,破解端侧大模型推理碎片化难题

    随着大语言模型(LLM)和视觉语言模型(VLM)在参数量和架构上快速演进,AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。 端侧推理能够显著降低对云端服务器的算力依赖与带宽压力,并在保护用户数据隐私的前提下,提供离线可用、低延迟的交互体验。然而,要将LLM/VLM真正部署到“每一台设备上”,开发者面临着前所未有的工程挑战。 核心问题与痛点 硬件生…

    2026年4月15日
    43800