SGLang

SGLang流水线并行：突破百万Token上下文推理瓶颈，实现3.31倍吞吐量提升

关键词：SGLang、流水线并行、超长上下文推理、动态分块、分布式推理本文聚焦大语言模型（LLM）向万亿参数与超长上下文演进时的推理基础设施瓶颈，提出 SGLang 优化版流水线并行（PP）方案。 Pipeline Parallelism in SGLang: Scaling to Million-Token Contexts and Beyond htt…

2026年1月16日

506000

大模型推理

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

当Agent应用加速，推理系统如何承接真实负载？当Agent在应用侧不断加速，推理系统能否承受随之而来的真实负载，正在成为行业关注的焦点。这是12月20日在杭州举办的SGLang AI 金融 π 对活动中，被反复提及的核心背景。在这场聚焦大模型推理效率的活动中，讨论焦点超越了Agent的概念热度，直指推理系统在真实负载下面临的工程挑战：高并发请求、长…

2025年12月21日

193000

大模型推理

SGLang发布迷你版：5千行代码实现LLM推理核心，性能媲美完整版

SGLang团队近日发布了mini-SGLang，将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术，包括重叠调度、FlashAttention-3、基数缓存等，在在线服务场景下的性能表现与完整版几乎无异。为何推出迷你版许多开发者希望深入理解现代大语言模型推理的内部机制，但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…

2025年12月20日

440000

AI产业动态

SGLang Model Gateway 0.2：一体化AI原生编排解决方案的突破性实践

在AI模型部署与推理的复杂生态中，尽管市场上涌现了众多GPU内核优化、推理引擎加速项目以及从传统云原生演进而来的AI网关工具，但真正实现一体化、原生AI编排的解决方案却长期处于空白状态。实际生产环境中，开发者往往需要自行整合多个组件，形成效率低下、维护困难的“缝合怪”系统。Oracle与SGLang团队敏锐地捕捉到这一痛点，近期推出了生产就绪的SGLang …

2025年10月25日

180000