CPU推理

大模型推理

ArcLight：突破众核CPU推理瓶颈，NUMA感知架构让LLM推理性能飙升46%

当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而，主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。这类平台普遍采用非统一内存访问（NUMA）架构，其跨节点的内存访问延迟远高于本地访问，形成了严重的“跨 NUMA 内存访问墙”，成为制约 LLM 推理性能的核心瓶颈。现…

2026年4月16日
242000
AI产业动态

突破硬件限制：ONNX Runtime GenAI实现LLM本地CPU推理新范式

有时小模型就足够了，而且你并不总是需要 GPU。将一些“工具型”任务直接跑在 CPU 上有很多理由：有时你就是没有 GPU；或者你希望数据留在本地；又或者你只是想保持架构简单。这就是 ONNX Runtime GenAI 的用武之地。它让你可以在想要的地方运行模型：有 GPU 就用 GPU，没有就跑 CPU，而且无需改一行代码。本文将展示它如何工作。所有示…

2026年2月7日
772000