硬件加速 - 鲸林向海

突破注意力瓶颈！FlatAttention数据流+片上集合通信协同优化，晶圆级系统实现2.9倍吞吐量提升

关键词：晶圆级系统、大语言模型推理、FlatAttention 数据流、片上集合通信、软硬协同设计随着大语言模型（LLM）推理的序列长度急剧增长以及混合专家（MoE）架构的普及，注意力（Attention）算子已成为制约系统整体吞吐量的核心瓶颈。传统的优化手段多局限于算法改进或硬件带宽升级等单一维度。图 1：(a) 大语言模型在预填充与解码阶段的浮点运算…

2026年4月7日

415000

开源项目

ISAMORE：基于E-Graph反合一的RISC-V定制指令自动化生成，开启AI硬件设计新范式

关键词：定制指令、RISC-V、E-Graph、反合一、AI加速、DSA 本文不仅介绍了一个强大的开源工具，更重要的是，它展示了一种思想上的转变：在软硬件协同设计的时代，最宝贵的资源不是晶体管，而是设计模式和知识的可复用性。具体而言，对AI基础设施和芯片设计社区的启示如下：为算法演进而生：在后摩尔时代，算法演进速度快于硬件迭代。因此，需要自动化工具来连接“…

2026年4月5日

286000

大模型推理

1比特注意力革命：BinaryAttention实现2倍FlashAttention2加速，突破Transformer部署瓶颈

关键词： Transformer、二值注意力、硬件加速、极低比特量化当注意力机制被“瘦身”到极致。 Transformer 架构的成功，很大程度上归功于其强大的注意力机制，它能捕捉序列中任意两个位置之间的依赖关系。然而，这种能力是有代价的：注意力计算的时间复杂度和空间复杂度随序列长度呈二次方增长。在视觉任务中，当处理高分辨率图像（如 1024×1…

2026年3月24日

332000

AI产业动态

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

关键词：dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型（dLLM）是一种融合了扩散模型迭代去噪特性的大语言模型，可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法（GEMM）为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…

2026年2月10日

366000

大模型推理

Unsloth革命：手机端大模型部署实战，40-50 token/s流畅体验揭秘

想在手机上流畅运行语言模型？过去常常面临速度缓慢或精度严重下降的困境。现在，借助Unsloth发布的完整教程，可以将其平台微调的模型直接部署到Pixel 8和iPhone 15 Pro等设备上。其核心技术是Meta应用于Instagram和WhatsApp的ExecuTorch。该技术专为移动端优化，能够充分利用ARM处理器的NEON指令集，并调用手机NP…

2025年12月21日

771000

大模型推理

移动端大模型部署新突破：Unsloth教程详解如何在iPhone 15 Pro和Pixel 8上流畅运行语言模型

想在手机上流畅运行一个像样的语言模型？过去这通常意味着要忍受缓慢的速度或严重的精度损失。如今，Unsloth 发布了一份详尽的教程，指导开发者如何将其平台微调的模型直接部署到 Pixel 8 和 iPhone 15 Pro 上。这项部署的核心是 Meta 为 Instagram 和 WhatsApp 等应用开发的 ExecuTorch 技术。该技术专为移动…

2025年12月21日

516000