NPU设计
-
突破GPU瓶颈:d-PLENA NPU架构实现扩散大模型采样2.53倍加速
关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…
关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…