分布式强化学习

RDMA+P2P权重传输提速7倍：SGLang如何用32GB CPU内存换1T模型秒级更新

我们为 SGLang 中的强化学习工作负载引入了一种基于 RDMA 的点对点权重更新机制，作为传统 NCCL 广播方法的补充，该机制兼容所有主流开源模型。在数秒内更新 1T 参数 —— 大规模分布式强化学习中的点对点权重传输 https://www.lmsys.org/blog/2026-04-29-p2p-update/ 全文约 6000 字，阅读需 4…

大模型推理 2026年5月5日
138000