LLM推理优化

150美元FPGA平台实现30B MoE大模型边缘推理，18 token/s解码速度突破成本性能极限

关键词： FPGA 加速器、混合专家模型（MoE）、边缘部署、低成本推理、GEMV 优化以150美元物料成本和18 token/s的解码速度，FPGA在大语言模型边缘部署领域取得了关键性突破。在深度学习硬件加速领域，FPGA的定位一直较为特殊。它既不具备GPU那样统治训练市场的极致算力密度，也难以像ASIC那样在特定场景下实现终极能效。长期以来，FPGA…

2天前

143000

大模型推理

FlowPrefill：突破LLM推理瓶颈，算子级抢占实现5.6倍吞吐提升与严格SLO保障

关键词： LLM 服务系统、预填充、队头阻塞、 _ SLO 感知调度_ 、算子级抢占、事件驱动调度当我们正在使用一个智能聊天机器人，输入了一个简短的问题，满怀期待地等待回复。然而，由于服务器正在处理一个长篇文档总结任务，请求被堵在后面，迟迟得不到响应，眼睁睁看着“正在输入”的提示转个不停。这种体验像极了早高峰堵车——一辆大货车慢悠悠地走在前面…

2026年2月25日

143000

大模型推理

LLM推理优化全景图：从基础设施到模型算法的全栈工程实践

本文基于真实的企业级AI平台研发与实践经验，首次以“系统分层、功能解耦”的架构思想，自底向上地呈现一幅完整的LLM推理优化全景图。文章详细剖析了从基础设施层（GPU集群、高速网络、存储加速）的硬件基石，到平台与调度层（Kubernetes、高级调度器、KServe）的资源管理中枢，再到服务与容器层的微观优化，以及AI网关层作为智能流量枢纽的核心能力。最终，深入探讨了推理引擎与算法层的核心优化技术，包括KV缓存管理、连续批处理、模型压缩及创新的Prefill/Decode分离架构。

2025年10月2日

781123