SGLang
-
1亿美元种子轮!英伟达、AMD、英特尔罕见联手,押注开源推理引擎SGLang背后团队RadixArk
模型层的竞争已进入白热化阶段,而硅谷最核心的半导体掌舵人们,正用真金白银押注一个更为底层的解决方案。一笔1亿美元的种子轮融资,对应着4亿美元的估值,英伟达、AMD、英特尔这三家芯片巨头罕见地同框出现。这笔2026年AI基础设施赛道中最重的早期投资,最终落到了一个从开源社区成长起来的团队——RadixArk,以及其背后的推理引擎SGLang与强化学习框架Mil…
-
RadixArk获1亿美元种子轮融资,SGLang与Miles双开源引擎引领AI基础设施新浪潮
2026年5月5日,AI基础设施赛道迎来重大新闻:由开源推理引擎SGLang核心开发者及维护者共同创立的RadixArk正式宣布成立,并成功完成1亿美元种子轮融资,投后估值达到4亿美元。 本轮融资由Accel领投,Spark Capital联合领投,英伟达(NVentures)、AMD、联发科等全球顶级科技巨头及多家知名投资机构共同参投。此外,John Sc…
-
RDMA+P2P权重传输提速7倍:SGLang如何用32GB CPU内存换1T模型秒级更新
我们为 SGLang 中的强化学习工作负载引入了一种基于 RDMA 的点对点权重更新机制,作为传统 NCCL 广播方法的补充,该机制兼容所有主流开源模型。 在数秒内更新 1T 参数 —— 大规模分布式强化学习中的点对点权重传输 https://www.lmsys.org/blog/2026-04-29-p2p-update/ 全文约 6000 字,阅读需 4…
-
SGLang流水线并行:突破百万Token上下文推理瓶颈,实现3.31倍吞吐量提升
关键词:SGLang、流水线并行、超长上下文推理、动态分块、分布式推理 本文聚焦大语言模型(LLM)向万亿参数与超长上下文演进时的推理基础设施瓶颈,提出 SGLang 优化版流水线并行(PP)方案。 Pipeline Parallelism in SGLang: Scaling to Million-Token Contexts and Beyond htt…
-
昇腾原生支持SGLang:大模型推理系统在金融Agent场景下的高效工程实践
当Agent应用加速,推理系统如何承接真实负载? 当Agent在应用侧不断加速,推理系统能否承受随之而来的真实负载,正在成为行业关注的焦点。 这是12月20日在杭州举办的SGLang AI 金融 π 对 活动中,被反复提及的核心背景。 在这场聚焦大模型推理效率的活动中,讨论焦点超越了Agent的概念热度,直指推理系统在真实负载下面临的工程挑战:高并发请求、长…
-
SGLang发布迷你版:5千行代码实现LLM推理核心,性能媲美完整版
SGLang团队近日发布了mini-SGLang,将原本30万行的代码库精简至仅5000行。该版本完整保留了核心优化技术,包括重叠调度、FlashAttention-3、基数缓存等,在在线服务场景下的性能表现与完整版几乎无异。 为何推出迷你版 许多开发者希望深入理解现代大语言模型推理的内部机制,但直接阅读30万行的生产级代码极具挑战。mini-SGLang正…
-
SGLang Model Gateway 0.2:一体化AI原生编排解决方案的突破性实践
在AI模型部署与推理的复杂生态中,尽管市场上涌现了众多GPU内核优化、推理引擎加速项目以及从传统云原生演进而来的AI网关工具,但真正实现一体化、原生AI编排的解决方案却长期处于空白状态。实际生产环境中,开发者往往需要自行整合多个组件,形成效率低下、维护困难的“缝合怪”系统。Oracle与SGLang团队敏锐地捕捉到这一痛点,近期推出了生产就绪的SGLang …
