性能建模
-
TL编译器:自动映射Tile程序至空间数据流架构,性能超越厂商库1.03×/1.91×
TL 证明,编译器驱动的映射可以在空间数据流加速器上提供厂商级别的性能。在 GEMM 和 FlashAttention 上,以最少的人工干预实现了与厂商库足以竞争甚至更好的性能,将手工设计的内核转变为可重用编译流水线的输出。同时,TL 的硬件抽象使得编译器过程在很大程度上可在不同加速器间重用,简化了对多样化空间数据流架构的支持,并为未来芯片的设计空间探索提供…
-
COMET框架:突破AI加速器性能瓶颈,显式建模集体通信与复合操作数据流
关键词:复合操作数据流建模、集体通信操作、内存层级优化、机器学习加速器、性能建模与优化 在人工智能技术日新月异的今天,大语言模型、状态空间模型等复杂神经网络已成为推动技术发展的核心引擎。然而,这些模型所依赖的复合操作——即由多个基础操作(如矩阵乘法、归一化、逐元素变换)组合而成的结构化模块——正在对现有的硬件加速器数据流设计与性能优化提出严峻挑战。 传统的数…
