块调度

大模型训练

突破多GPU通信瓶颈：AutoOverlap实现块级细粒度计算-通信重叠，最高加速4.7倍

关键词：计算-通信重叠、块调度、分布式编译器、GPU、Triton、多 GPU 工作负载通过块级调度在单内核内实现计算与通信的深度重叠近年来，大语言模型的规模呈指数级增长，训练这些模型需要数百甚至数千块 GPU。在多 GPU 系统中，通信已经取代计算成为主要瓶颈。即使采用 NVLink、NVSwitch 等高速互连技术，AllGather、ReduceS…

2026年2月23日
272000