大模型推理

智谱Scaling Pain揭秘：高负载下的隐形Bug与避坑指南

Scaling即正义？智谱对此只能无奈摇头——过程极其痛苦，压力山大。智谱最新发布的一篇技术博客画风突变，不再一味输出硬核技术，而是大倒苦水，详细披露了从GLM-5以来遭遇的各种奇葩踩坑经历，官方将其称为「Scaling Pain」。我们的推理基础设施正承受着前所未有的压力，每天需处理数亿次Coding Agent调用。过去几周，部分用户在使用GLM…

2026年5月2日

194000

3D堆叠+全栈协同：DeepStack如何让LLM推理吞吐飙升9.5倍？

DeepStack 的核心成果在于，它通过将 3D 堆叠内存的底层特性与全并行策略在早期设计阶段深度融合，实现了高达 9.5 倍的推理吞吐量提升。该框架的主要贡献是一套兼具高精度与高效率的全栈设计空间探索（DSE）方法论。DeepStack 首次将利特尔法则约束、事务感知带宽模型、Bank 冲突分析、热功耗 DVFS 反馈、全部七种并行策略、双阶段网络抽象…

大模型推理 2026年4月28日

188000

突破极端边缘计算极限：AI引擎如何让科学推理性能飙升4倍，打破FPGA部署瓶颈

突破极端边缘计算极限：AI引擎如何让科学推理性能飙升4倍，打破FPGA部署瓶颈第1/5部分：极端边缘计算的性能困局与AI引擎的破局之道在极端边缘科学实时推理场景中，系统面临着极为严苛的约束条件：必须实现微秒级的端到端延迟、维持数十兆赫兹的吞吐速率，并且所有模型权重都必须完整地驻留在芯片上，无法依赖外部存储器。传统方案依赖FPGA可编程逻辑（PL）配合H…

大模型推理 2026年4月27日

147000

AMD AITER深度解析：融合四种后端的MoE加速引擎，GEMM自动调优与JIT编译实战

在大型模型推理的战场上，算子的性能是构建一切的基础。随着Transformer模型的参数规模突破千亿级别，并且MoE架构逐渐成为行业标配，单一的Kernel实现早已无法满足不同形状、不同精度以及不同硬件代际的多样化需求。 AITER（面向ROCm的AI张量引擎）是AMD推出的一款高性能AI算子库，专为基于ROCm的推理与训练负载提供经过深度优化的GPU核心运…

大模型推理 2026年4月27日

169000

大模型推理

Ouroboros：中科院计算所发布晶圆级存算一体芯片，大模型推理吞吐量提升9.1倍

中科院计算所发布晶圆级存算一体芯片Ouroboros，大模型推理吞吐量最高提升9.1倍当前大模型的发展呈现出模型规模持续攀升的趋势，对计算硬件的需求也随之快速增长。从千亿参数到万亿规模，每一次迭代都对硬件资源提出了更高的要求。在这一背景下，一个关键的“隐性开销”日益凸显：数据搬运。在传统计算架构中，一次推理过程往往需要在DRAM、SRAM与计算单元之间反…

2026年4月21日

337000

大模型推理

Fleet：多芯粒GPU时代的新编程范式，破解大模型推理效率瓶颈

一、架构断裂：当“单片思维”撞上“芯粒现实” 现代GPU架构已转向基于芯粒（Chiplet）的多芯片设计，例如AMD Instinct MI300X/MI350和NVIDIA Blackwell。然而，主流的CUDA/HIP执行模型并未完全适应这一根本性的架构变迁。一个核心痛点是：编程模型缺乏直接的方法来表达工作组群之间的数据亲和性，或将计算任务限定到特定芯…

2026年4月21日

305000

大模型推理

TorchInductor引入CuteDSL后端：GPU推理性能提升1.78倍，自动调优技术革新GEMM计算

关键词：TorchInductor、CuteDSL、GEMM、GPU 推理、自动调优 “在抽象-性能权衡的赛道上，每一种优秀的领域特定语言（DSL）都占据着独特位置。” PyTorch 的 TorchInductor 此前已支持 Triton、CUTLASS（C++）和 cuBLAS 三大自动调优后端。CuteDSL 的加入，不仅填补了由 Python 编写…

2026年4月20日

326000

大模型推理

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

长上下文推理新突破：Kimi提出PrFaaS范式，实现跨机房调度将长上下文能力做到极致的Kimi，近日联合清华大学团队，在大模型推理架构上取得关键进展。他们提出了一种名为 Prefill-as-a-Service（PrFaaS）的全新范式，即“预填充即服务”。其核心突破在于，首次实现了 KV Cache 能够跨数据中心进行传输，从而将大模型推理中的 P…

2026年4月20日

638000

大模型推理

ArcLight：突破众核CPU推理瓶颈，NUMA感知架构让LLM推理性能飙升46%

当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而，主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。这类平台普遍采用非统一内存访问（NUMA）架构，其跨节点的内存访问延迟远高于本地访问，形成了严重的“跨 NUMA 内存访问墙”，成为制约 LLM 推理性能的核心瓶颈。现…

2026年4月16日

238000

大模型推理

OmniInfer：统一多后端引擎，破解端侧大模型推理碎片化难题

随着大语言模型（LLM）和视觉语言模型（VLM）在参数量和架构上快速演进，AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。端侧推理能够显著降低对云端服务器的算力依赖与带宽压力，并在保护用户数据隐私的前提下，提供离线可用、低延迟的交互体验。然而，要将LLM/VLM真正部署到“每一台设备上”，开发者面临着前所未有的工程挑战。核心问题与痛点硬件生…

2026年4月15日

438000

分类

排序

大模型推理

智谱Scaling Pain揭秘：高负载下的隐形Bug与避坑指南

3D堆叠+全栈协同：DeepStack如何让LLM推理吞吐飙升9.5倍？

突破极端边缘计算极限：AI引擎如何让科学推理性能飙升4倍，打破FPGA部署瓶颈

AMD AITER深度解析：融合四种后端的MoE加速引擎，GEMM自动调优与JIT编译实战

Ouroboros：中科院计算所发布晶圆级存算一体芯片，大模型推理吞吐量提升9.1倍

Fleet：多芯粒GPU时代的新编程范式，破解大模型推理效率瓶颈

TorchInductor引入CuteDSL后端：GPU推理性能提升1.78倍，自动调优技术革新GEMM计算

Kimi发布PrFaaS新范式：让大模型推理跨机房调度成为现实，吞吐量提升54%

ArcLight：突破众核CPU推理瓶颈，NUMA感知架构让LLM推理性能飙升46%

OmniInfer：统一多后端引擎，破解端侧大模型推理碎片化难题