CUDA

  • Rust直编GPU内核!cuda-oxide将安全代码编译为PTX,无需CUDA C++

    如果说CUDA C++是GPU编程领域的“母语”,那么Rust长期以来更像一位站在门外的工程师:它拥有强大的类型系统、所有权模型和零成本抽象,却难以自然地融入NVIDIA GPU的SIMT执行模型中。 传统解决方案要么编写领域特定语言(DSL),要么绑定外部CUDA代码,要么牺牲Rust的语义来换取可编译性。 cuda-oxide是一款实验性的Rust转CU…

    开源项目 4天前
    20100
  • 深入解析NVIDIA CCCL:CUDA并行计算的基石架构与核心组件

    在当今 GPU 加速计算生态中,NVIDIA CCCL(CUDA Core Compute Libraries)是一个不可忽视的底层基石。 CCCL 的目标是为 CUDA C++ 开发者提供一套基础组件库,旨在简化高效、安全代码的编写。将这些库整合使用,能够显著降低开发复杂度,并充分发挥 CUDA C++ 的强大性能。 从推理框架 SGLang、vLLM,到…

    2026年4月10日
    26200
  • 告别文档迷宫!开源项目将NVIDIA CUDA/PTX文档转为AI友好Markdown,GPU开发效率飙升

    在 GPU 计算与深度学习领域,NVIDIA CUDA 及其底层 PTX 指令集已成为高性能计算不可或缺的基石。无论是进行底层算子开发、极致性能优化,还是排查隐蔽的显存错误,开发者都深度依赖 NVIDIA 提供的官方文档。 然而,许多开发者都有过在 NVIDIA 官方文档庞大而复杂的 HTML 页面中迷失方向的痛苦经历。 一、 项目背景与核心痛点 1.1 P…

    2026年3月29日
    32200
  • AI创造AI系统:全球首个AI全生成深度学习框架VibeTensor深度解析

    关键词:AI for AI System、Deep learning runtime、Agent development、CUDA 副标题:“完全由 AI 生成”是否是一个有误导性的宣传标签? 见【关键问题二】 一个从 Python 接口到 CUDA 内存管理,几乎完全由 AI 代码助手生成的深度学习框架,其背后究竟遵循着怎样的开发范式? 如果你关注 AI …

    2026年2月2日
    65500
  • 决战性能之巅!MLSys 2026 CUDA 内核优化大赛开启,用代码挑战 B200 GPU 极限

    关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习 一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…

    2026年1月25日
    56300
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…

    2025年12月20日
    46100
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    32000
  • NVIDIA CUDA 13.1深度解析:Tile编程模型引领GPU计算新范式

    NVIDIA CUDA Toolkit 13.1的发布标志着GPU计算领域的重要转折点。作为自2006年CUDA平台诞生以来规模最大、最全面的更新,这次版本升级不仅带来了技术架构的根本性变革,更预示着AI计算范式的演进方向。本文将从技术架构、应用场景和产业影响三个维度,深入剖析这次更新的核心价值。 CUDA Tile编程模型的引入是本次更新的核心突破。传统S…

    2025年12月6日
    39000