GPU编程

用Python写GPU汇编？pyptx在Blackwell上实现1240 TFLOPS，性能超越cuBLAS

GPU 编程领域长期存在一个令人尴尬的困境：一方面，追求极致性能必须依赖 CUDA C++ 甚至直接编写 PTX 汇编；另一方面，为了提升开发效率，开发者往往不得不接受 Triton、Pallas 等编译器自动生成代码时的黑盒优化与不可控性。当 Triton 生成的指令调度不符合预期，当你需要精细调控 mbarrier 时序、TMA 的 multicast…

AI产品库 2026年4月28日

129000

AI产业动态

Axe异构布局编译器：跨GPU/TPU/Trainium的统一编程模型，开启机器学习编译新纪元

Axe Layout 的提出，是机器学习系统领域向统一抽象迈进的重要一步。这种统一抽象的威力，在于让开发者能够以接近手工调优代码的性能，轻松编写出高效利用最新 GPU 特性、实现通信计算重叠、并能跨 GPU 和 AI 加速器移植的复杂内核。Axe 不仅仅是一个编译器或 DSL，它更是一种思维范式。它试图弥合高层分布式编程与底层硬件微架构之间的语义鸿沟，为下一…

2026年2月1日

427000

AI产业动态

NVIDIA CUDA 13.1深度解析：Tile编程模型引领GPU计算新范式

NVIDIA CUDA Toolkit 13.1的发布标志着GPU计算领域的重要转折点。作为自2006年CUDA平台诞生以来规模最大、最全面的更新，这次版本升级不仅带来了技术架构的根本性变革，更预示着AI计算范式的演进方向。本文将从技术架构、应用场景和产业影响三个维度，深入剖析这次更新的核心价值。 CUDA Tile编程模型的引入是本次更新的核心突破。传统S…

2025年12月6日

391000