LayerNorm
-
PyTorch torch.compile性能突破:LayerNorm与RMSNorm内核优化,GPU性能提升至SOTA水平
关键词:torch.compile、归一化算子、LayerNorm、RMSNorm、GPU性能优化 LayerNorm与RMSNorm是深度学习模型中的基础归一化算子,用于对输入数据进行标准化处理。它们是确保大模型训练平稳收敛、提升推理效率的关键模块。在高性能GPU平台上,其内核性能直接决定了整体训练吞吐量。 目前,业界顶尖的归一化内核多依赖于手工深度优化。…