CUDA

  • 决战性能之巅!MLSys 2026 CUDA 内核优化大赛开启,用代码挑战 B200 GPU 极限

    关键词: FlashInfer、MLSys26、高性能推理、AI 计算、深度学习 一行行精简的 CUDA 代码,将在 NVIDIA 最新 Blackwell B200 GPU 上展开一场关于性能与效率的终极较量。 2026 年 1 月 22 日,一项面向全球 AI 开发者的顶级技术挑战——MLSys 2026 FlashInfer AI 内核生成竞赛正式拉开…

    2026年1月25日
    5800
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…

    2025年12月20日
    22400
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…

    2025年12月20日
    8000
  • NVIDIA CUDA 13.1深度解析:Tile编程模型引领GPU计算新范式

    NVIDIA CUDA Toolkit 13.1的发布标志着GPU计算领域的重要转折点。作为自2006年CUDA平台诞生以来规模最大、最全面的更新,这次版本升级不仅带来了技术架构的根本性变革,更预示着AI计算范式的演进方向。本文将从技术架构、应用场景和产业影响三个维度,深入剖析这次更新的核心价值。 CUDA Tile编程模型的引入是本次更新的核心突破。传统S…

    2025年12月6日
    8500