硬件加速
-
突破注意力瓶颈!FlatAttention数据流+片上集合通信协同优化,晶圆级系统实现2.9倍吞吐量提升
关键词:晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计 随着大语言模型(LLM)推理的序列长度急剧增长以及混合专家(MoE)架构的普及,注意力(Attention)算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。 图 1:(a) 大语言模型在预填充与解码阶段的浮点运算…
-
ISAMORE:基于E-Graph反合一的RISC-V定制指令自动化生成,开启AI硬件设计新范式
关键词:定制指令、RISC-V、E-Graph、反合一、AI加速、DSA 本文不仅介绍了一个强大的开源工具,更重要的是,它展示了一种思想上的转变:在软硬件协同设计的时代,最宝贵的资源不是晶体管,而是设计模式和知识的可复用性。具体而言,对AI基础设施和芯片设计社区的启示如下: 为算法演进而生:在后摩尔时代,算法演进速度快于硬件迭代。因此,需要自动化工具来连接“…
-
1比特注意力革命:BinaryAttention实现2倍FlashAttention2加速,突破Transformer部署瓶颈
关键词: Transformer、二值注意力、硬件加速、极低比特量化 当注意力机制被“瘦身”到极致。 Transformer 架构的成功,很大程度上归功于其强大的注意力机制,它能捕捉序列中任意两个位置之间的依赖关系。然而,这种能力是有代价的:注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中,当处理高分辨率图像(如 1024×1…
-
突破GPU瓶颈:d-PLENA NPU架构实现扩散大模型采样2.53倍加速
关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…
-
Unsloth革命:手机端大模型部署实战,40-50 token/s流畅体验揭秘
想在手机上流畅运行语言模型?过去常常面临速度缓慢或精度严重下降的困境。现在,借助Unsloth发布的完整教程,可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。 其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化,能够充分利用ARM处理器的NEON指令集,并调用手机NP…
-
移动端大模型部署新突破:Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型
想在手机上流畅运行一个像样的语言模型?过去这通常意味着要忍受缓慢的速度或严重的精度损失。如今,Unsloth 发布了一份详尽的教程,指导开发者如何将其平台微调的模型直接部署到 Pixel 8 和 iPhone 15 Pro 上。 这项部署的核心是 Meta 为 Instagram 和 WhatsApp 等应用开发的 ExecuTorch 技术。该技术专为移动…
