微基准测试
-
NVIDIA Blackwell架构微基准深度解析:FP4/FP6赋能LLM推理2.5倍加速,36.3TFLOPS FP64重塑科学计算
关键词:Blackwell、GPU、 Microbenchmark 、5th-generation Tensor Core 、 TMEM 本文工作量化了张量内存(TMEM)对矩阵密集型负载的影响,评估了硬件解压缩引擎(DE)的吞吐量及最优使用方式,通过新的tcgen05 PTX 指令分析了第五代张量核心的执行特性。 此外,还评估了 FP4 与 FP6 精度的…
-
揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制
关键词:GPU 微架构、微基准测试、CUDA、存储层次、算术流水线、控制流 本文是系列文章《Demystifying GPU Microarchitecture through Microbenchmarking》的第一篇,也是早期 NVIDIA GPU 架构分析文章之一。由于全文篇幅较长(约 2 万字),可能更适合作为参考资料,建议读者根据目录选择感兴趣的…