分布式强化学习
-
RDMA+P2P权重传输提速7倍:SGLang如何用32GB CPU内存换1T模型秒级更新
我们为 SGLang 中的强化学习工作负载引入了一种基于 RDMA 的点对点权重更新机制,作为传统 NCCL 广播方法的补充,该机制兼容所有主流开源模型。 在数秒内更新 1T 参数 —— 大规模分布式强化学习中的点对点权重传输 https://www.lmsys.org/blog/2026-04-29-p2p-update/ 全文约 6000 字,阅读需 4…
我们为 SGLang 中的强化学习工作负载引入了一种基于 RDMA 的点对点权重更新机制,作为传统 NCCL 广播方法的补充,该机制兼容所有主流开源模型。 在数秒内更新 1T 参数 —— 大规模分布式强化学习中的点对点权重传输 https://www.lmsys.org/blog/2026-04-29-p2p-update/ 全文约 6000 字,阅读需 4…