Microbenchmarking
-
揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制
本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…