PTX

  • Rust直编GPU内核!cuda-oxide将安全代码编译为PTX,无需CUDA C++

    如果说CUDA C++是GPU编程领域的“母语”,那么Rust长期以来更像一位站在门外的工程师:它拥有强大的类型系统、所有权模型和零成本抽象,却难以自然地融入NVIDIA GPU的SIMT执行模型中。 传统解决方案要么编写领域特定语言(DSL),要么绑定外部CUDA代码,要么牺牲Rust的语义来换取可编译性。 cuda-oxide是一款实验性的Rust转CU…

    开源项目 6天前
    22600
  • 用Python写GPU汇编?pyptx在Blackwell上实现1240 TFLOPS,性能超越cuBLAS

    GPU 编程领域长期存在一个令人尴尬的困境:一方面,追求极致性能必须依赖 CUDA C++ 甚至直接编写 PTX 汇编;另一方面,为了提升开发效率,开发者往往不得不接受 Triton、Pallas 等编译器自动生成代码时的黑盒优化与不可控性。 当 Triton 生成的指令调度不符合预期,当你需要精细调控 mbarrier 时序、TMA 的 multicast…

    AI产品库 2026年4月28日
    13800
  • 告别文档迷宫!开源项目将NVIDIA CUDA/PTX文档转为AI友好Markdown,GPU开发效率飙升

    在 GPU 计算与深度学习领域,NVIDIA CUDA 及其底层 PTX 指令集已成为高性能计算不可或缺的基石。无论是进行底层算子开发、极致性能优化,还是排查隐蔽的显存错误,开发者都深度依赖 NVIDIA 提供的官方文档。 然而,许多开发者都有过在 NVIDIA 官方文档庞大而复杂的 HTML 页面中迷失方向的痛苦经历。 一、 项目背景与核心痛点 1.1 P…

    2026年3月29日
    33000