GPU编程
-
用Python写GPU汇编?pyptx在Blackwell上实现1240 TFLOPS,性能超越cuBLAS
GPU 编程领域长期存在一个令人尴尬的困境:一方面,追求极致性能必须依赖 CUDA C++ 甚至直接编写 PTX 汇编;另一方面,为了提升开发效率,开发者往往不得不接受 Triton、Pallas 等编译器自动生成代码时的黑盒优化与不可控性。 当 Triton 生成的指令调度不符合预期,当你需要精细调控 mbarrier 时序、TMA 的 multicast…
-
Axe异构布局编译器:跨GPU/TPU/Trainium的统一编程模型,开启机器学习编译新纪元
Axe Layout 的提出,是机器学习系统领域向统一抽象迈进的重要一步。这种统一抽象的威力,在于让开发者能够以接近手工调优代码的性能,轻松编写出高效利用最新 GPU 特性、实现通信计算重叠、并能跨 GPU 和 AI 加速器移植的复杂内核。Axe 不仅仅是一个编译器或 DSL,它更是一种思维范式。它试图弥合高层分布式编程与底层硬件微架构之间的语义鸿沟,为下一…
-
NVIDIA CUDA 13.1深度解析:Tile编程模型引领GPU计算新范式
NVIDIA CUDA Toolkit 13.1的发布标志着GPU计算领域的重要转折点。作为自2006年CUDA平台诞生以来规模最大、最全面的更新,这次版本升级不仅带来了技术架构的根本性变革,更预示着AI计算范式的演进方向。本文将从技术架构、应用场景和产业影响三个维度,深入剖析这次更新的核心价值。 CUDA Tile编程模型的引入是本次更新的核心突破。传统S…
