3D堆叠+全栈协同:DeepStack如何让LLM推理吞吐飙升9.5倍?

DeepStack 的核心成果在于,它通过将 3D 堆叠内存的底层特性与全并行策略在早期设计阶段深度融合,实现了高达 9.5 倍的推理吞吐量提升。

该框架的主要贡献是一套兼具高精度与高效率的全栈设计空间探索(DSE)方法论。DeepStack 首次将利特尔法则约束、事务感知带宽模型、Bank 冲突分析、热功耗 DVFS 反馈、全部七种并行策略、双阶段网络抽象以及 Tile 级计算-通信重叠模型,整合进一个统一的自动化闭环中。

图 1 对比了传统 2.5D 封装与新型 3D 堆叠架构。2.5D 方案依赖中介层互联,面临带宽瓶颈且 PHY 占用面积较大;而 3D 方案通过 TSV 和混合键合技术实现 DRAM 与计算裸片的直连。论文强调,3D 架构是破解 LLM 推理内存瓶颈的关键硬件路径,也是 DeepStack 建模的基石。其高带宽特性为分布式大模型推理铺平了道路,但也引入了热管理、细粒度内存建模等全新挑战。

在约 10^30 种潜在设计方案中,DeepStack 借助分层剪枝与高效搜索策略,成功遍历了广阔的设计空间。其网络建模相比传统模拟器实现了最高 10 万倍的加速,这充分证明,代数约束驱动的建模方法能够在保证精度的同时,极大提升 DSE 效率。研究揭示的“批次大小决定架构生死”等反直觉结论,为下一代算力中心基础设施建设提供了坚实的数据支撑。


随着大模型参数规模冲向万亿级别,通过混合键合与硅通孔技术将 DRAM 垂直堆叠于逻辑核心之上,已成为突破“内存墙”的主流方案。然而,这带来了一个巨大的设计困境:硬件架构、3D 互联拓扑、分布式并行策略以及热功耗极限,这些变量不再是孤立的离散选项,而是一个深度耦合的“无限设计空间”(高达 10^30 个配置点)。传统的模拟器(如 NS-3 级别的 ASTRA-sim)面对如此庞大的空间直接崩溃,单次模拟耗时甚至长达数小时。

DeepStack 的核心洞察在于:与其追求百分之百的物理模拟精度,不如抓住物理瓶颈的数学本质。它精准捕捉了 3D 堆叠芯片独有的“利特尔法则”缓存限制、事务级带宽退化以及 Bank 级冲突。

图 4 展示了 DeepStack 的 DSE 框架全景。从 LLM 计算图输入、硬件配置校验,到并行策略生成、自动调优、Tile 级建模,最终输出性能报告,整个流程被完整呈现。该框架集成了面积、功耗热、网络、计算通信重叠四大建模模块,能够高效探索 10^30 个设计点,有效解决了分布式 3D 加速器软硬件协同设计的复杂性难题。

通过引入“双阶段网络抽象”和“Tile 级计算-通信重叠建模”,DeepStack 实现了高达 10 万倍的搜索加速,同时保持了仅 2.12% 的平均误差(对比 NS-3 后端)。即便在与真实 vLLM 在 8×B200 GPU 上的实测数据对比时,其误差也仅为 12.18%。

最终,在 DeepSeek-V3 等模型上,通过全栈协同优化,DeepStack 相比仅支持 TP/PP/DP 的受限基线方案,实现了累计 9.5 倍的吞吐量提升。它还揭示了一个反常识的铁律:在 3D 堆叠设计中,批次大小对架构的塑造力,远超 Prefill 与 Decode 之间的差异。


前言:盲人摸象的终结:当 3D 堆叠遇见“全栈先觉”

“随着 LLM 向数千亿甚至数万亿参数演进,分布式推理已成为 AI 服务的必需品。跨栈协同设计对于提升 AI 效能日益关键,我们提出了 DeepStack,一个面向分布式 3D 堆叠 AI 系统早期阶段系统-硬件协同设计空间探索框架。”

过去几年,无论是 GPT-4、DeepSeek-V3 还是 Llama-3,模型参数的膨胀速度远超单芯片算力的增长。当 Prompt 长度从 4K 冲向 128K 甚至 1M 时,KV Cache 带来的内存爆炸问题,让传统的 2.5D 封装(如 HBM 方案)不堪重负。

3D 堆叠——即直接将显存堆叠在算力核心上方——通过缩短物理距离、剧增带宽,看似是完美的解药。然而,DeepStack 的作者们发现,现有学术界工具在面对 3D 堆叠的“微观物理”与“宏观分布式”耦合时,集体失灵:有的忽视了 DRAM 在不同事务大小下的带宽衰减,有的只支持 Tensor/Data/Pipeline 这老三样并行,还有的在运行分布式网络模拟时便耗光了算力。

图 3:在特定 STPS 配置下,不同并行策略组合的数量分布,清晰展示了性能表现的巨大差异。该图揭示,即便是同一模型,不同并行策略带来的性能波动也非常显著,而真正能达到高性能的方案占比极低。论文指出,传统框架仅支持 TP、PP、DP 三种并行方式,远不足以覆盖整个设计空间,从而导致最高可达 5 倍的性能损失。相比之下,DeepStack 将并行策略扩展至七种,能够完整遍历设计空间,从根本上杜绝因并行策略缺失而对芯片架构设计产生误导。

这篇论文的核心使命,正是打破这种“盲人摸象”式的认知局限。

DeepStack 框架通过分层建模的方式,首次实现了 3D 硬件微观内存语义(例如 Bank 激活冲突、对事务大小敏感的带宽特性)与系统级宏观并行调度(涵盖全部 7 种并行策略的自动组合)之间的深度打通。它并非仅仅打造了一个加速模拟器,而是借助“低温全栈设计视角”去揭示以下关键问题:

  • 当你为了提升带宽而不断堆叠 DRAM 层数时,为何会触碰到“利特尔法则”的边界,导致有效带宽不升反降?
  • 当解码大批次任务时,热量为何会成为扼住吞吐量咽喉的隐形杀手?

DeepStack 的真正价值在于,它在芯片尚未设计完成之前,就能以极高的保真度预判这些物理极限,从而在由 14 个零组成的庞大组合数中,精准定位出那条最优的架构路径。

unsetunset一、破开迷雾:为什么 3D 堆叠不是简单的“叠叠乐”?unsetunset

1.1 不仅是带宽神话:利特尔法则敲响的警钟

“绝大多数先前的研究都未能考虑利特尔法则的约束,这在极高带宽的 3D 内存建模场景下是存在严重问题的。” DeepStack 团队明确指出,单纯追求理论峰值带宽,就如同修建了一条无限宽广的高速公路,却在入口处只设置了一个收费通道。

在 3D 堆叠的理想世界中,硅通孔与混合键合技术为芯片带来了海量的垂直带宽。例如,在论文设定的场景中,4 层堆叠的 3D DRAM 带宽高达惊人的 13.1 TB/s,远超同等面积下的 HBM3。然而,DeepStack 敏锐地指出了被多数架构师忽略的一条物理铁律——利特尔法则。其公式非常简洁:有效带宽 ≤ 缓存大小 / 延迟

这意味着,即使 DRAM 拥有 10TB/s 的理论带宽,如果片上缓存不够大,无法容纳足够多的“在途数据”来覆盖 DRAM 的访问延迟,那么这 10TB/s 根本无法被充分利用。NVIDIA B200 GPU 为了达到 90% 的 DDR 带宽利用率,每个线程块需要超过 40 KiB 的共享内存。 而在 3D 堆叠中,带宽密度是 DDR 的数十倍,按比例换算,所需的片上缓存将大到在面积上无法接受

DeepStack 通过建立有效带宽与缓存容量、事务大小之间的强相关模型,强制架构师直面现实:在总面积受限的情况下,是堆砌大缓存来吃满带宽,还是节省面积来增加算力单元?这不再依赖直觉判断,而是由数学模型来决策。

1.2 DRAM 的微观丛林:Bank 激活争用与事务级退化

3D 堆叠通常摒弃传统的内存多 Bank 交织方式,转而采用直接的垂直连接。这带来了极致的带宽,但也让内存控制器不得不直面 Bank 冲突的残酷现实。

为了最大化利用 TSV(Through-Silicon Via,硅通孔,是 3D 芯片堆叠的核心硬件技术,通过在硅晶圆上刻蚀出垂直穿透芯片的金属微孔,实现上下层芯片的直连),DeepStack 所面向的 3D 架构往往将 Bank 直接连接到逻辑核心,不再依赖内存控制器在后台进行复杂的交织调度来掩盖行激活与预充电的延迟。 这便催生了一种独特的“事务大小敏感性”。论文中的图 2 清晰地展示了这一点。

图 2:3D 堆叠 DRAM 的延迟与带宽利用率(TSV,无交织)。横坐标代表事务大小。对于小粒度数据访问,有效带宽急剧下降;只有当单次传输接近完整行大小时,才能摊销开销,达到峰值效率。该图展示了事务大小与 3D DRAM 延迟、带宽利用率之间的关联,小事务无法摊薄 Bank 激活开销,导致带宽利用率大幅下降。据此,DeepStack 构建了事务感知的带宽模型,纠正了过往研究中理想化带宽的假设,使得对分布式 LLM 推理的内存性能预测更为精准,避免了因高估带宽而导致的设计偏差。

这并非普通的缓存未命中。在 LLM 推理过程中,细粒度的专家路由和矩阵分块,往往会产生非常零散的小数据流。DeepStack 精细地捕捉了这种“事务感知的带宽曲线”,并将其嵌入性能模型。如果不考虑这一点,架构师会天真地认为将 MoE 模型的专家切得很碎就能完全利用带宽,结果在实际加载模型时,会发现现实带宽仅为理论值的零头。 这种微观建模的缺失,正是过往粗粒度成本模型所产生的致命幻觉。

unsetunset二、分层递进:从 Tile 到系统的极致全栈建模unsetunset

2.1 芯片架构的“数字孪生”

从单个处理引擎到全网状系统,DeepStack 定义了五层嵌套的硬件抽象。这使得它在保持通用性的同时,实现了极高的配置灵活度。

DeepStack 的硬件模型就像乐高积木一样可灵活拼装。

  • 最底层是包含向量单元、矩阵单元和可配置缓存的 PE;PE 组成带有 L2 缓存和垂直堆叠 DRAM 的“簇”;
  • 簇通过 L1 网络连接成“裸片”;
  • 裸片通过 UCIe 构成“芯片”;
  • 芯片再通过以太网构成“节点集群”。

这种六层拓扑结构(从 PE 到系统级)被以参数化的形式暴露给搜索算法。

图 5:3D 堆叠 DRAM 架构的横截面与俯视图示例。从 Tier 逻辑层到 DRAM 堆叠层的垂直连接清晰可见。这种架构要求缓冲与带宽严格匹配,以克服物理延迟。该图从处理引擎、DRAM 集群、裸片、芯片、系统五个层级拆解了 3D 堆叠架构,清晰呈现了 TSV、UCIe 等关键互联结构。作者基于此分层硬件模型,使 DeepStack 能够灵活配置计算单元、缓存、DRAM 层数、网络拓扑,保障了建模的通用性,使其能适配从单芯片到多节点的全场景分布式推理。

这种细粒度模型让 DeepStack 能够捕捉到“Bank 冲突”这类硬伤。在处理小算子时,由于算子规模不足以“喂饱” DRAM 的所有独立 Bank,峰值带宽会骤降。DeepStack 通过构建每波次的 Bank 访问直方图,找到最拥挤的 Bank 作为服务时间的决定者。 这实质上是将微观调度级的问题抽象为数学约束,在保证精度的同时,也维持了速度。

2.2 计算与通信的“探戈”: Tile 级流水线重叠

“随着网络带宽的增加,最优的分块策略从‘追求重叠’转变为‘追求计算效率’。” DeepStack 的 Tile 级重叠模型,自动上演了一场分块大小与 NoC 带宽之间的动态博弈。

在分布式推理中,通信并非独立存在,它必须与计算协同配合。DeepStack 将计算任务 Tile 化,并构建了三级流水线模型。如下面公式所示,总延迟被分解为起始计算、首个传输、稳态流水以及收尾计算。

这一模型将重叠效率与波次数量、单波次计算时间、传输时间及网络空载延迟紧密耦合,为自动搜索最优分块策略提供了可解析的代价函数。

关键在于,如果网络带宽很低,你需要将矩阵切得足够细,才能获得足够的流水线级数来隐藏通信延迟。但切得太细,GPU 的计算效率又会下降。

图 7:GEMM 的 Tile 级计算-通信重叠建模。四张子图分别对比了低 NoC 带宽 (a,b) 与高 NoC 带宽 (c,d) 下,小分块与大分块策略对总执行时间的影响。浅蓝色计算块与红色通信块的重叠程度,直观体现了带宽如何逆转最优调度策略。该图对比了不同 NoC 带宽、Tile 大小下的计算通信重叠效果,揭示了 Tile 大小与重叠效率、计算复用之间的权衡关系。DeepStack 自动优化 Tile 策略,结合网络延迟动态调整,最大化分布式推理的执行效率,这一建模是提升端到端推理性能的关键技术点。

上图的例子非常生动。

  • 在低带宽下,小矩阵块虽然计算速度较慢,但能通过流水线将红色的通信块隐藏起来;
  • 在高带宽下,通信几乎不耗时,切小块产生的毛刺反而增加了总时间。

DeepStack 的设计搜索并非简单的“设定一个分块值”,而是将分块策略与网络带宽、DRAM 有效带宽一同纳入搜索循环,彻底解放了工程师的双手。

2.3 “双阶段”网络魔法:为什么能快 10 万倍?

这是 DeepStack 实现绝对速度优势的核心武器。它通过一个“流量矩阵路由”的数学模型,直接计算出全网阻塞点,从而避开了耗时的事件级离散模拟。

三、硬核验证:与真实硅片和服务器“对答案”

传统的 NS-3 级网络仿真需要逐包收发、仲裁冲突,模拟一次 All-to-All 通信可能耗费 3 小时。DeepStack 则采用了一种极为巧妙的“流量矩阵”数学抽象。 首先,它将所有并发的通信需求(例如 TP 的 All-Reduce、EP 的 All-to-All)拍平,形成一张逻辑流量表。然后,在第二阶段映射到物理拓扑(环形、网状、交换机)时,再将这些流量叠加到具体的物理链路上。

图 6:将 64 节点逻辑 EP 全对全流量映射到三层 Torus-Mesh-Mesh 拓扑的示例。(a) 逻辑流量矩阵中,色块越亮表示通信量越大;(b) 物理拓扑带宽分布;(c) 路由后的物理流量分布;(d) 最终的链路利用率,红线标注即为决定 T_cong 的关键链路。该图展示了 DeepStack 的双阶段网络抽象流程:先构建流量矩阵,再映射到物理拓扑。这种方法规避了事件级建模的低效问题,评估一个 256 节点拓扑仅需 0.1 秒,且误差低于 5%。论文证实,该技术相比 NS-3 后端实现了 10 万倍的加速,彻底解决了大规模 DSE 的时间瓶颈,是其高效网络建模的核心创新。

DeepStack 将网络时间分解为“物理跳数延迟”与“最大链路拥塞延迟”之和。其核心洞察在于:决定分布式训练/推理网络延迟的关键因素,是物理跳数延迟与最拥塞链路的序列化延迟共同作用的结果,两者都可能成为瓶颈。 通过直接定位瓶颈链路的最大流量/带宽比,DeepStack 仅用 0.1 秒就完成了原本需要数小时的模拟,且误差极低。这个算法对 256 节点的拓扑依然能瞬时出结果,这正是它能搜索 10 的 14 次方种可能性的数学基石。

3.1 对齐 Cadence Palladium 与 B200 集群

如果模型脱离真实世界,一切搜索都只是空谈。DeepStack 给出的答案是:与 Cadence Palladium 周期精确仿真器相比,误差小于 5%;与在 8×B200 服务器上运行 vLLM 的完整推理流程相比,MAPE 为 12.18%。

表 2:每 800mm² 的架构规格。该表列出了 7nm 工艺下不同硬件配置的算力、缓存带宽、WGMMA 支持等参数,在统一面积约束下对比 H100/H200 与自研 3D 架构。作者基于此参数集开展 DSE,验证了 3D 堆叠 DRAM 的带宽优势,量化了计算、缓存与互联之间的面积权衡,为硬件参数配置提供了基准。

在下图 8 和图 9 中,作者展示了极具说服力的验证过程。他们不仅在内部的 3D 芯片设计上使用 Palladium 进行仿真,还在真实的 8 卡 B200 上运行 vLLM,以测算 DeepSeek 系列模型的 TP 与 EP 误差。

图 8:DeepStack 与 8xH100 真实 GPU 集群上 Triton 分布式 Kernel 的精度对比。横轴代表不同形状的 GEMM 算子,模型预测曲线与实测点几乎重合,平均误差低至 3.97%。该图验证了 DeepStack 在分布式内核上的建模精度。作者通过真实 H100 集群测试,证明了其计算与通信建模的高准确度,使 DSE 结果可直接指导硬件设计,避免了仿真与实际硬件性能的脱节。图 9:DeepStack 在 8×B200 GPU 上的 vLLM TP/EP 建模精度。该图显示了 DeepStack 在不同模型规模与批量大小下的端到端推理 MAPE 为 12.18%,偏差仅来自 FlashMLA 等动态实现细节。作者通过 B200 集群验证,覆盖了 LLaMA、Qwen3、DeepSeek 等主流模型,证明了该框架对稠密模型与 MoE 模型均具备通用建模能力。

更重要的是,在 Switch 和 Torus 等复杂拓扑下,DeepStack 仅付出了 2.12% 和 1.62% 的误差,就换来了相比 NS-3 模拟器 10 万倍的加速。这让深度协同设计从“玄学”真正变成了“科学”。

与业界标杆模拟器相比,DeepStack 不仅将网络仿真时间从小时级压缩到亚秒级,更通过数万倍的吞吐量飞跃,证明了宏观代数模型完全可以取代离散事件模拟,用于架构级 DSE。这是方法论上的降维打击。

四、解构设计空间:批次大小,芯片的“新主宰”

4.1 Prefill vs Decode 的叙事过时了?

DeepStack 得出的第 5 个关键结论振聋发聩:“批次大小定义了一种比 Prefill/Decode 更底层的架构分界线。”最优的硬件架构可自然划分为三类:

  1. 大批次预填充(浅层级堆叠、算力最大化);
  2. 小批次预填充 + 大批次解码(中层级堆叠、性能均衡);
  3. 小批次解码(深层级堆叠、带宽最大化)。

因此,基于批次大小的硬件分离设计,效果会优于单纯的预填充-解码分离架构。

长期以来,AI Infra 领域一直认为 Prefill 是计算密集型,Decode 是内存密集型。但 DeepStack 通过遍历海量 3D 堆叠配置发现,在同一个 Decode 阶段,Batch Size=4 和 Batch Size=1024 对 DRAM 层数的需求截然不同!

  • 小批次 Decode 完全是一个带宽“杂货铺”,需要至少堆叠 9 层 DRAM;
  • 但到了大批次,算力需求上升,再堆叠 DRAM 就会挤占 SM(流处理器)的硅面积,最优层数直接降至 6 层。

图 14:DeepSeek-V3 的 TPS 与 DRAM 层数、面积分解。该图显示最优 DRAM 堆叠层数随批量大小变化:小批量解码需要 9 层,大批量预填充仅需 2 层。论文提出,批量大小比预填充/解码是更核心的架构划分依据,推翻了传统分阶段设计思路,为 3D 加速器的批量感知设计提供了全新结论。

上图清晰地展示了最优 DRAM 堆叠层数随批量大小变化:小批量解码需 9 层,大批量预填充仅需 2 层。作者提出,批量大小比预填充/解码是更核心的架构划分依据,颠覆了传统分阶段设计思路,为 3D 加速器的批量感知设计提供了全新结论。

这张图直接证明了“倒 U 曲线”的存在。它表明最优堆叠层数高度依赖于批量大小和推理阶段。架构师不能脱离 Batch Size 和负载特征孤立地讨论 DRAM 堆叠层数, 盲目增加层数可能因面积挤占和热约束反而降低吞吐量。

4.2 连接的悖论:多连一定好?

DeepStack 还解耦了“堆叠层”与“连接层”这两个概念。结论是:能效最优的设计倾向于多堆少连,而吞吐最优的设计则是少堆多连。

在热和功耗的约束下,让每一层 DRAM 的 TSV 都全速接通,会带来巨大的功耗与面积开销。论文中的热力图显示,低延迟高能耗的设计可能并不适合做批量在线推理。

图 15:吞吐量/能效最优的 DRAM 堆叠与连接层热图。该图区分了堆叠层(容量)与连接层(带宽),吞吐量最优需要全连接,能效最优则多堆叠少连接。指出能效设计通过大缓存、高数据复用与专家并行来降低能耗,增益为 3%-24%,证明 3D 架构需要结合优化目标进行定制,而非单一配置适配所有场景。

这背后的原因是,能量高效的配置通过更大的片上缓存和偏向 Expert Parallelism 的流量模式,降低了对 DRAM 真实带宽的饥渴度。DeepStack 让我们看到,在设计 AI 芯片时,KPI 的不同会让最终芯片的物理形态完全不同。

五、密布的荆棘:相关工作与现有边界

5.1 过往的局限:被困住的探索

对比表 1 清晰地列出了前人的局限性:

  • ASTRA-sim 困在 TP/PP/DP 的舒适区;STCO 看懂了热和功耗,却没搞懂详细的并行;
  • Stratum 和 Helios 虽触及了 3D,但都缺失了对 Little‘s Law 或事务级退化模型的严格考量。

表 1:与过往工作的对比及创新性分析。该表将 ASTRA-sim、LLM-Compass 等工具与 DeepStack 进行了功能层面的横向对比。结果显示,DeepStack 是唯一支持细粒度 3D 建模、热功耗建模以及全部七种并行策略的框架。通过这一对比,论文有力地凸显了其框架的全面性,并直指过往工具存在的三大核心缺陷:忽视 3D 内存语义、并行策略不完整、以及缺乏热建模能力。

当前大多数研究聚焦于“采用 3D 芯片后性能能提升多少”,而非“如何设计一款适配分布式 LLM 运行的 3D 芯片”。像 Timeloop 和 Maestro 这类工具虽擅长单芯片探索,但仅限于抽象的层面理解网络;而 LLMCompass 虽然速度快,却过于简化。

DeepStack 真正的差异化优势,在于它成功弥合了微观层面的 DRAM 事务处理宏观层面的全并行策略之间那道难以逾越的鸿沟。原始论文中的消融实验表明,仅考虑 TP/PP/DP 三种并行策略与综合所有七种并行策略相比,会导致设计空间探索(DSE)所选出的芯片配置截然不同——前者选择了 5SM,后者则选定了 6SM。一旦流片定型,一切便已尘埃落定。

unsetunset六、结论与展望unsetunset

6.1 结论总结

“通过在早期设计阶段精准捕捉 3D 堆叠内存语义与全并行策略,DeepStack 实现了高达 9.5 倍的吞吐量提升。”

DeepStack 的核心贡献在于提出了一套兼具高精度与极速效率的全栈 DSE 方法论。它首次将利特尔法则的限制、事务感知带宽、Bank 冲突分析、热功耗 DVFS 反馈、全七种并行策略、双阶段网络抽象以及 Tile 级计算-通信重叠模型,整合进了一个统一的自动化循环流程中。

在对约 种设计方案进行评估时,DeepStack 通过分层剪枝与高效搜索,广泛探索了设计空间。其网络建模速度相比传统模拟器提升了最高 10 万倍,这充分证明了代数约束驱动的建模方法能够在保证精度的前提下,极大提升 DSE 的效率。此外,它所揭示的诸如“批次大小对架构的决定性影响远超 Prefill/Decode 差异”等反直觉结论,为下一代算力中心的基础设施建设提供了坚实的数据支撑。

6.2 进阶分析

抛开 DeepStack 亮眼的破纪录数据,我们需要冷静审视其解决问题的底层逻辑。

  • 首先,DeepStack 本质上是一个将非连续性的物理约束进行代数化处理的工具。其双阶段网络抽象通过流量矩阵映射和物理链路拥塞定位,将事件级模拟替换为可解析的瓶颈分析。然而,该方法目前主要在规整的拓扑结构下得到了严格验证;若将其拓展至不规则或存在复杂 QoS 策略的超大规模网络中,其代数模型的保真度仍有待进一步检验。其当前的低误差主要源自较为规整的拓扑;一旦遇到不规则或带有弱连接的超大规模互联结构,解析解的精度可能会有所下降。
  • 其次,DeepStack 高度依赖于输入算子的成本模型校准(例如来自 7nm ASAP7 库的模型)。它并未解决 3D 制程本身固有的工艺偏差问题。当进入更先进的节点(如 3nm 或 GAA 工艺)时,片上 NoC 的功耗弹性以及 DRAM 堆叠热阻的线性假设都可能发生突变。尽管文中提到了 DVFS,但仍缺乏对工艺角偏差的非线性建模。
  • 最后,尽管 DeepStack 致力于“系统-硬件协同”,但它依然是一个静态的确定性问题求解器,而非针对动态 Serving 流量的响应机制。它假设了均匀的 Token 长度、到达率以及专家路由分布。在真实服务器中,流量的潮汐效应会引发间歇性过热降频,这是热模型难以在 DSE 阶段完全预见的。因此,它所找到的最优解是一个理论上的稳态极值,实际业务上线后仍会伴随工程上的折损。

6.3 未来工作

原文计划

论文作者明确计划将 DeepStack 开源,以支持未来的相关研究。

此外,目前的热模型尚未与针对性的微流体或背面供电等冷却方案进行深度对接。原文还暗示将探索更动态的测试时计算扩展(Test-Time Compute Scaling)对 3D 堆叠流片的影响,以及更全面的 CUDA 图实现细节捕捉。

NeuralTalk 视角

DeepStack 的出现,实际上为 AI Infra 领域打开了一扇通往“算法定义硅前架构”的大门。

  • 第一,Chiplet + 3D 的拓扑生成式 AI。既然 DeepStack 能在 0.1 秒内输出结果,未来完全可以将其作为 Reward Model,反向训练一个强化学习架构师。我们不再需要手动搜索,而是让模型自动生成最优的互联拓扑与流片规格,从而从“架构搜索”走向“架构涌现”。
  • 第二,热感知的弹性推理架构(Thermal-Aware Autoscaling)。将 DeepStack 的稳态热模型思想下沉到云原生调度层,结合实时的集群热量分布,动态激活或休眠不同的 3D chiplet 区域,实现算力跟随热包络移动。
  • 第三,打破静态的数据流模式。论文目前的调度是离线最优,未来可以结合 Neural Radiance Cache 中的稀疏思想,将全栈 DSE 用于探索非均匀的稀疏互联架构。例如,并非所有 DRAM 层都全连接,而是设计仅在数据密集区导电的“异形 3D 堆叠”,并利用 DeepStack 的快速 DSE 计算出最经济的物理切割面。这将是颠覆性的变革。

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32401

(0)
上一篇 1小时前
下一篇 1小时前

相关推荐

  • Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…

    2026年1月2日
    40900
  • AMD AITER深度解析:融合四种后端的MoE加速引擎,GEMM自动调优与JIT编译实战

    在大型模型推理的战场上,算子的性能是构建一切的基础。随着Transformer模型的参数规模突破千亿级别,并且MoE架构逐渐成为行业标配,单一的Kernel实现早已无法满足不同形状、不同精度以及不同硬件代际的多样化需求。 AITER(面向ROCm的AI张量引擎)是AMD推出的一款高性能AI算子库,专为基于ROCm的推理与训练负载提供经过深度优化的GPU核心运…

    大模型推理 1天前
    4200
  • 美团LongCat技术突破:LoZA稀疏注意力机制实现10倍解码加速,轻松驾驭百万级长文本

    闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 256K文本预加载提速超50%,并解锁了1M上下文窗口。 美团LongCat系列发布全新稀疏注意力机制LoZA。 该技术旨在集中解决长文本任务中的理解与算力难题。 相比LongCat系列之前的全注意力MLA机制,LoZA仅改造了一半的核心模块,却将模型的长文本处理能力从256K扩展到1M,同时显著提升了解…

    2026年1月13日
    28400
  • SkipOPU:突破动态推理瓶颈,FPGA加速大语言模型效率革命

    关键词:大语言模型、动态推理、FPGA 加速、混合精度计算、KV 缓存管理 大语言模型的推理效率面临一个根本性矛盾:模型对所有词元执行相同的计算,但不同词元对语义的贡献差异巨大。正如人类阅读时会自动略过虚词,聚焦实词,大模型也应具备“选择性计算”的能力——这正是动态计算分配方法(如 SkipGPT)的核心思想。 然而,算法层面宣称的计算量减少,往往难以在实际…

    2026年4月3日
    22300
  • DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升

    DeepSeek新框架DualPath:用闲置网卡加速智能体推理,突破I/O瓶颈实现近2倍性能提升 当业界普遍关注DeepSeek下一代模型V4的进展时,其研究团队与北京大学、清华大学的研究人员在ArXiv上联合发表了一篇论文,提出了一个全新的智能体推理框架:DualPath。 该框架旨在解决智能体长文本推理场景中的关键I/O瓶颈问题。其核心创新在于优化从外…

    2026年2月27日
    30000