JAX/PyTorch
-
用Python写GPU汇编?pyptx在Blackwell上实现1240 TFLOPS,性能超越cuBLAS
GPU 编程领域长期存在一个令人尴尬的困境:一方面,追求极致性能必须依赖 CUDA C++ 甚至直接编写 PTX 汇编;另一方面,为了提升开发效率,开发者往往不得不接受 Triton、Pallas 等编译器自动生成代码时的黑盒优化与不可控性。 当 Triton 生成的指令调度不符合预期,当你需要精细调控 mbarrier 时序、TMA 的 multicast…