ArcLight

  • ArcLight:突破众核CPU推理瓶颈,NUMA感知架构让LLM推理性能飙升46%

    当前大语言模型推理领域呈现出 GPU 追求高性能、CPU 侧重易部署的双轨发展格局。然而,主流 CPU 推理框架难以有效适配广泛部署于 Web 服务器与高端网络设备中的众核 CPU 平台。 这类平台普遍采用非统一内存访问(NUMA)架构,其跨节点的内存访问延迟远高于本地访问,形成了严重的“跨 NUMA 内存访问墙”,成为制约 LLM 推理性能的核心瓶颈。 现…

    3小时前
    1700