SGLang

  • SGLang流水线并行:突破百万Token上下文推理瓶颈,实现3.31倍吞吐量提升

    关键词:SGLang、流水线并行、超长上下文推理、动态分块、分布式推理 本文聚焦大语言模型(LLM)向万亿参数与超长上下文演进时的推理基础设施瓶颈,提出 SGLang 优化版流水线并行(PP)方案。 Pipeline Parallelism in SGLang: Scaling to Million-Token Contexts and Beyond htt…

    2026年1月16日
    14200
  • 昇腾原生支持SGLang:大模型推理系统在金融Agent场景下的高效工程实践

    当Agent应用加速,推理系统如何承接真实负载? 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州举办的SGLang AI 金融 π 对 活动中,被反复提及的核心背景。 在这场聚焦大模型推理效率的活动中,讨论焦点超越了Agent的概念热度,直指推理系统在真实负载下面临的工程挑战:高并发请求、长…

    2025年12月21日
    9500
  • SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版

    SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…

    2025年12月20日
    17200
  • SGLang Model Gateway 0.2:一体化AI原生编排解决方案的突破性实践

    在AI模型部署与推理的复杂生态中,尽管市场上涌现了众多GPU内核优化、推理引擎加速项目以及从传统云原生演进而来的AI网关工具,但真正实现一体化、原生AI编排的解决方案却长期处于空白状态。实际生产环境中,开发者往往需要自行整合多个组件,形成效率低下、维护困难的“缝合怪”系统。Oracle与SGLang团队敏锐地捕捉到这一痛点,近期推出了生产就绪的SGLang …

    2025年10月25日
    7700