块调度
-
突破多GPU通信瓶颈:AutoOverlap实现块级细粒度计算-通信重叠,最高加速4.7倍
关键词:计算-通信重叠、块调度、分布式编译器、GPU、Triton、多 GPU 工作负载 通过块级调度在单内核内实现计算与通信的深度重叠 近年来,大语言模型的规模呈指数级增长,训练这些模型需要数百甚至数千块 GPU。在多 GPU 系统中,通信已经取代计算成为主要瓶颈。即使采用 NVLink、NVSwitch 等高速互连技术,AllGather、ReduceS…