Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍

中科院计算所发布晶圆级存算一体芯片Ouroboros大模型推理吞吐量最高提升9.1倍

当前大模型的发展呈现出模型规模持续攀升的趋势,对计算硬件的需求也随之快速增长。从千亿参数到万亿规模,每一次迭代都对硬件资源提出了更高的要求。

Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍

在这一背景下,一个关键的“隐性开销”日益凸显:数据搬运。在传统计算架构中,一次推理过程往往需要在DRAM、SRAM与计算单元之间反复读写数据。频繁的访存操作不仅带来高延迟,也消耗大量能耗。有研究指出,实际计算所占的时间远少于数据搬运所耗费的时间。

为此,一种极具潜力的思路应运而生:彻底消除数据搬运。这引出了两条备受关注的技术路径:存算一体晶圆级集成

  • 存算一体:将存储与计算融合在同一芯片内,使数据在原地完成处理,避免频繁搬运。
  • 晶圆级集成:直接在整片硅晶圆上构建超大规模系统,通过超高带宽互连,实现晶圆级的统一内存与计算资源。

中国科学院计算技术研究所的研究团队在该方向上取得了重要进展。其最新成果Ouroboros发表在体系结构领域的顶级会议——第31届ACM编程语言与操作系统架构支持国际会议(ASPLOS)上。

Ouroboros实现了一款完全由SRAM存算单元构建的晶圆级芯片。在该芯片中,模型推理所需的所有数据——权重、KV Cache以及激活值——全部存放于片上SRAM中,无需从外部DRAM进行搬运。所有计算均在数据存储位置完成,真正实现了“数据不搬家,计算就地化”的存算一体范式。

Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍

芯片采用层次化设计,自上而下分为三层:

1. 晶圆级集成
芯片顶层为一块巨型单晶圆,集成有54GB SRAM,可完整存储模型权重、激活值与KV Cache,彻底消除DRAM访问开销。整片晶圆由相同尺寸的小芯片通过stitching技术无缝拼接,形成统一调度的计算平面。

2. 芯片级组织
每个芯粒内部由上百个存算核心构成网格网络,核心间通过高带宽链路互联。设计将芯粒面积推向光刻极限以最大化SRAM容量,并引入核心级容错机制以保障大规模芯片的可靠性。

3. 存算核心微架构
每个核心包含输入输出缓存、存算阵列、专用函数单元及控制单元。缓存容量可容纳典型大模型的token数据,显著减少核心间数据传输。存算阵列通过优化的片上网络互联,专用函数单元以匹配的并行度执行softmax等操作,控制单元则协调核心间与核心内的流水线同步。

尽管Ouroboros构建了强大的晶圆级计算平面,在运行大模型时仍面临若干关键挑战:

第一,SRAM容量限制

虽然在晶圆上集成了大量SRAM,但受限于SRAM自身的密度,片上存储容量仍显不足。当模型规模继续膨胀,如何用有限的片上空间装下越来越大的权重和状态,依然是绕不开的难题。

第二,巨型阵列的调度难题

当计算单元以成百上千的规模铺满晶圆,如何高效地把模型“拆解”并映射到这个分布式阵列上,就成了一个复杂的系统工程。存储布局、数据流调度、任务分配……每一项都需要全新的设计思路。

第三,计算与存储的协同优化

在存算一体的架构里,计算和存储是高度绑定的——计算发生在数据存放的位置,存储的布局也直接制约着计算的效率。因此,必须同时对两者进行协同设计与优化,才能最大化整体性能。

Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍

为了充分释放这片晶圆的计算潜力,团队专门打造了一个端到端大模型推理框架
* 从模型整体的流水线切分开始,这个框架就进行了针对性的精细化调整,目标是让存算资源被充分利用起来。
* 紧接着,团队设计了一套权重映射策略——不仅考虑硬件资源如何分配,还引入了分层映射方法,尽可能减少数据传输。
* 而针对大模型推理中至关重要的KV Cache,框架也有一套创新设计:通过分布式动态KV缓存管理方案与对应的硬件支持,把片上缓存的空间利用率推向了新的高度。

Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍
Ouroboros:中科院计算所发布晶圆级存算一体芯片,大模型推理吞吐量提升9.1倍

在从芯片到系统的协同设计下,Ouroboros实现了“原地计算”理念,取得了显著的性能与能效表现。实验结果表明:
* 平均吞吐量达到现有顶尖系统的4.1倍
* 平均能效提升至4.2倍

而在13B参数规模的模型上,表现尤为突出:
* 吞吐量最高达9.1倍
* 能效比提升至17倍

采用单晶圆推理Llama 13B模型、在WikiText‑2数据集上进行测试时,系统吞吐量可稳定达到15万tokens/s。这一结果进一步验证了Ouroboros在真实大模型负载下的性能。

上述数据不仅验证了性能与能效的突破,也为“存算一体+晶圆级集成”这一技术路线的可行性提供了有力支撑。该研究标志着在消除数据搬运、构建高效大模型推理系统方向上迈出了重要一步。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31217

(0)
上一篇 4天前
下一篇 4天前

相关推荐

  • OpenAI o1突破语言理解极限:首次展现匹敌人类语言学家的元分析能力

    导读:LLM再下一城!伯克利研究证明,OpenAI的o1展现出匹敌人类语言学家的元分析能力。 在人类诸多才能中,语言常被视为最独特的标志。自亚里士多德将人定义为“具有语言的动物”以来,这一观点便深入人心。 尽管当前的大语言模型(如ChatGPT)已能流畅地进行日常对话,但一个根本性问题依然存在:人类语言的深层结构与特质,是否超越了AI的运算体系? 为了探究这…

    2025年11月8日
    27400
  • 微信AI突破扩散模型推理瓶颈:WeDLM实现vLLM部署3倍加速,低熵场景超10倍

    腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型 3 倍以上加速,低熵场景更可达 10 倍以上,同时保持甚至提升生成质量。 引言 自回归(AR)生成是当前大语言模型的主流解码范式,但其逐 token 生成的特性…

    2026年1月3日
    33000
  • 成本与性能的完美平衡:字节豆包Seed 2.0 Lite深度评测,73.9%准确率仅需5.4元/千次调用

    春节前夕,字节跳动正式发布了 Seed 2.0 系列大模型。在先前的评测中,我们已经对该系列的旗舰版本 Doubao-Seed-2.0-pro 进行了详细分析。 在实际的商业落地与开发场景中,模型的成本控制往往与性能表现同等重要。与 Doubao-Seed-2.0-pro 版本同期发布的,还有定位更加轻量、普惠的 Doubao-Seed-2.0-lite 模…

    2026年2月24日
    2.6K00
  • MixKV:打破KV缓存压缩的隐形天花板,让长上下文推理既稳又快

    长上下文推理已成为视觉-语言模型(VLM)和大语言模型(LLM)的默认形态。然而,真正的性能瓶颈往往潜藏在推理端的键值(KV)缓存中。随着上下文长度增加,KV缓存线性膨胀,导致显存占用与带宽开销飙升,进而严重压制模型吞吐量。 因此,KV缓存压缩成为一项无法回避的工程挑战。尽管压缩能有效节省显存,却常常伴随“越压缩越不稳定”的风险。上海交通大学EPIC Lab…

    2026年3月31日
    18200
  • FAST-Prefill:FPGA动态稀疏注意力加速器,突破长上下文LLM预填充瓶颈,性能提升2.5倍

    FAST-Prefill 并非简单的算法硬件映射,而是一个硬件-算法深度协同设计的范例。它基于 Flex-Prefill 算法的计算模式与数据流特征,定制了专用的数据通路与访存策略。这项工作不仅提供了一个实用的加速方案,更确立了一种方法论启示:针对特定工作负载,精巧的架构设计往往比通用算力的堆砌更为高效。 关键词:FPGA 加速、稀疏注意力、长上下文 LLM…

    2026年3月4日
    29100