昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

当Agent应用加速，推理系统如何承接真实负载？

当Agent在应用侧不断加速，推理系统能否承受随之而来的真实负载，正在成为行业关注的焦点。

这是12月20日在杭州举办的SGLang AI 金融 π 对 活动中，被反复提及的核心背景。

在这场聚焦大模型推理效率的活动中，讨论焦点超越了Agent的概念热度，直指推理系统在真实负载下面临的工程挑战：高并发请求、长上下文窗口、多轮推理、内存管理，以及在具体金融Agent场景下的一致性生成问题。

同时，昇腾作为算力平台在讨论中被多次提及。目前，昇腾已作为SGLang原生支持的后端之一进入主仓库。随着SGLang推理引擎的更新，DeepSeek、Qwen、GLM等模型可以在不调整模型参数、不引入额外插件的情况下直接运行，HiCache、Mooncake等系统能力也在对应版本中引入。

此次活动呈现的并非零散的技术点，而是一条清晰的推理工程演进路径——从缓存与内存体系，到权重更新、强化学习效率，再到算力与模型生态的协同。

面向Agent的推理系统工程解法

本次活动由SGLang与AtomGit社区联合发起，围绕大模型推理架构、Agent、强化学习及其在金融场景的落地展开讨论。

参与嘉宾包括来自推理系统、模型与算力一线的工程团队：华为高级项目群总监薛曜，SGLang开发者黄章衡、尚旭春，华为“小巧灵”突击队工程师荆升航，昇腾高级研发工程师镇亮，以及GLM技术布道师张昱轩。

整体而言，相较于传统的问答式LLM，Agent在深度研究、代码生成、工具调用等应用以及强化学习训练中，对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求。在金融Agent等特定部署场景中，对低延迟、响应稳定性、一致性及成本控制的要求则更为严苛。

本次Meetup正是针对这些Agent原生的系统变化，给出了工程实践层面的集中回应。

首先，针对高并发、长上下文场景下KV cache重复计算、显存需求大的问题。
SGLang通过最新引入的HiCache体系，将KV cache扩展到CPU和远端存储，由Cache Controller自动管理KV卸载与填装，并结合流水线化异步预取，显著降低了显存占用，提升了上下文推理的稳定性与吞吐。

此外，针对Qwen3-Next、Kimi Linear这类具备不同计算逻辑和内存管理方式的混合模型，SGLang通过Mamba Radix Tree实现前缀统一管理，并借助Elastic Memory Pool弹性调度KV Cache与Mamba State，在长上下文、多并发场景下提供高效推理和显存优化能力。

其次，为应对强化学习中策略权重频繁更新导致GPU空转、冷启动耗时过长的瓶颈。
Mooncake基于Transfer Engine，采用异步预读、pipeline并行设计，显著压缩权重加载和模型启动时间，实现热更新与弹性扩容。

实测效果显示：Kimi K2万亿参数模型的权重更新准备时间被压缩至20秒以内，63B模型的冷启动时间更是从85秒降至9秒。

强化学习的rollout过程是异步、多阶段且长度不可预测的。其中的长尾请求可能拖慢90%的训练时间。针对这一问题，SGLang通过Server化与全异步执行、oversample与partial rollout机制控制长尾请求，大幅缓解了Agentic RL中的长尾问题，提高了训练效率。

最后，针对DeepSeek、GLM-4.5等MoE模型的fuse MoE、内存调度和负载均衡问题，SGLang持续重构执行路径与内存管理机制。同时，Slime强化学习系统针对大规模GRPO与多阶段RL训练定制，实现训练系统与推理引擎的深度协同。

一个值得注意的细节是，上述HiCache、Mooncake等推理系统级能力，并非只局限于某一类算力平台。这些实践均已能够在昇腾平台上直接运行，并进入实际推理流程。这种不约而同的支持，从侧面印证了昇腾硬件在推理系统生态中的角色转变——它已作为主流推理工作流中的后端之一，被自然纳入系统设计与工程实现之中。

昇腾 × SGLang：大模型推理的高效实践

在应对上述共性挑战的同时，活动也展示了SGLang在昇腾平台上的最新进展，覆盖模型适配、性能优化及系统加速能力模块化沉淀。

主要亮点如下：
* 模型优化：针对DeepSeek、Qwen系列等开源模型进行适配与性能提升，支持稠密、稀疏、多模态等架构，并支持Flux、Qwen-Image等多模态生成模型。
* 系统特性：HiCache L1/L2/L3直通缓存机制已落地，MTP完全适配昇腾平台，兼容GPU与NPU后端。
* 量化能力：推进昇腾侧量化与开源框架协同，支持压缩张量等多种量化方案。
* 推理模式：完善图模式支持，实现DeepSeek V3.2、Qwen-Next、Longcat等新模型的day0支持。
* 强化学习：支持SGLang VeRL等强化学习相关模型的推理与部署。

在具体模型支持上，昇腾实现了对DeepSeek V3.2的Day 0支持。在PD分离、64K输入、3K输出场景下，推理吞吐达到15TPS/卡，TTFT约4秒，PD传输（HCCS）< 8ms，TPOT ≈ 20毫秒。

为实现上述性能，团队在系统层面进行了多项优化：
* 负载均衡：通过重新分配计算任务，使各CP rank计算量均衡。
* 融合算子：将多个连续的小算子合并为复合算子，减少内存访问次数和Kernel启动开销，使中间结果保留在高速缓存中，提升计算效率。
* 多流并行：通过Cube与Vector计算单元并行执行算子，提升计算资源利用率。
* 权重预取：在Cube计算路径中引入预取机制，实现数据搬运与计算阶段的重叠，减少访存等待带来的性能损耗。

这些优化让昇腾平台在大规模、高复杂度推理场景中，实现了高吞吐、低延迟、资源高效利用的表现。

针对Qwen的优化则包括通用能力增强（图模式、W8A8量化、EAGLE3），为不同规模和形态的模型提供基础性能支撑。同时，引入昇腾亲和性专项优化：利用多流并行，并在大EP（Expert Parallelism）场景中通过Dispatch/Combine流程将GMM计算融合处理，减少算子切换和中间调度开销，提升整体执行效率。

除DeepSeek、Qwen外，SGLang在昇腾硬件上也已覆盖Kimi、LongChat等模型，新模型可在不改代码的前提下直接运行。所有相关代码均已合入SGLang主社区仓，开发者无需额外安装插件，直接拉取主仓代码即可使用。

昇腾在此的核心理念是尽量不动Models层，仅在底层完成硬件亲和与性能提升。这一系列进展背后，是昇腾与SGLang主仓的深度共建，也意味着AI算力与开源推理框架的融合进入新阶段。

从架构层面看，昇腾相关优化已下沉到SGL-kernel-NPU算子库，亲和算子能力与代码实现均在此集中维护演进。Engine层作为核心优化区，支持EPLB、Graph Runner与MTP，覆盖GPU与NPU等多硬件后端以实现统一推理能力。

缓存与通信依托HiCache实现L1/L2及L3-L1直通优化。最底层的SGL-kernel-NPU则承载昇腾加速算子、量化算子及传输接口，实现了开源能力与昇腾硬件性能的双向赋能。

整体而言，这些进展标志着昇腾与SGLang开源社区在推理系统层面的持续协同，并为后续更复杂的推理与强化学习场景奠定了稳定的工程基础。

全面拥抱开源

在此次适配工作中，昇腾的目标明确——全面拥抱开源、加速昇腾生态建设。

在过去五个多月里，昇腾不仅补齐了对多类主流模型的推理支持，还覆盖了强化学习训练、多模态理解与生成等关键场景，并在PD传输等系统层面持续优化，将SGLang on Ascend的整体性能提升至具备竞争力的水平。

此外，昇腾已基于SGLang在真实业务场景中对DeepSeek V3.2完成了灰度测试。这表明相关能力已超越实验阶段，进入了真实生产环境的验证周期。

从演进路线来看，昇腾后续的发展将明确围绕“推理系统”展开系统性工程投入：

一方面，通过Zero Buffer、昇腾亲和加速库等机制，持续优化单机与多机推理吞吐，以服务高并发、低时延的真实业务负载；

另一方面，在基础软件层构建昇腾版Triton生态，与SGLang、vLLM等开源引擎保持接口与演进节奏对齐，使模型上线、算子开发与性能调优形成可复用的工程路径。

这些举措共同指向一个清晰的变化：昇腾正从“能否支持某个模型”的硬件选项，转变为以推理系统为核心，被纳入开源工程的主流讨论与默认方案评估之中。

当模型、推理引擎与算力平台在工程层面形成稳定协作，AI算力需要回答的核心问题也将从“能否运行”转变为“系统能否长期、规模化且稳定地运行”。

归根结底，高性能、易用性与开箱即用才是关键。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14196

昇腾原生支持SGLang：大模型推理系统在金融Agent场景下的高效工程实践

当Agent应用加速，推理系统如何承接真实负载？

面向Agent的推理系统工程解法

昇腾 × SGLang：大模型推理的高效实践

全面拥抱开源

相关推荐

AgentInfer：华为诺亚方舟实验室推出工业Agent端到端加速框架，破解推理落地三大陷阱

Video-Thinker：小红书首创视频推理内生智能，让大模型自主导航动态时序

Claude独立攻克图论猜想，算法祖师爷高德纳震惊：AI首次被正式记录在数学研究论文中

Meta REFRAG革新RAG架构：30倍提速、16倍上下文、成本减半，彻底解决上下文垃圾问题

揭秘LLM推理两阶段瓶颈：从GPU微架构根源到跨场景高效部署策略