关键词:端侧大语言模型、Roofline 建模、软硬件协同设计、缩放定律、帕累托最优、架构搜索
第一部分:基于 Roofline 建模的端侧大语言模型硬件协同设计缩放律
端侧大语言模型的部署长期面临模型精度与推理效率的核心权衡。现有模型多沿用通用架构范式,缺乏与底层硬件特性深度协同的系统性缩放规律与设计准则。

本文针对这一痛点,基于 Roofline 性能建模框架,构建了覆盖预填充与解码阶段的端到端推理延迟分析模型;同时基于 170 组涵盖稠密与稀疏 MoE 架构的训练结果,拟合出高置信度的模型损失缩放定律。
在此基础上,作者提出 PLAS 帕累托最优 LLM 架构搜索框架,通过对 1942 组架构的系统性分析,完成精度-延迟双目标的帕累托前沿构建,揭示了端侧场景下 MoE 架构全覆盖、宽而浅设计更优、FFN 扩张比远低于常规 4× 等一系列核心发现。

图 3 | 帕累托最优大语言模型架构搜索框架(PLAS)概述。该框架整合了(1)通过缩放定律拟合进行的经验损失建模、(2)基于 Roofline 的延迟估计,以及(3)帕累托前沿构建,以实现硬件感知的架构选择。
本文进一步构建了硬件约束下的架构优化理论框架,推导出不同约束场景下的最优架构参数闭式解,将架构选型周期从数月缩短至一周以内。
实证结果显示,其协同设计的模型在同等延迟下,困惑度较主流开源模型降低 19.42%,为端侧 LLM 的硬件-模型协同设计提供了理论支撑与实践指南。
关键问题
问题一:硬件协同设计定律是否真的具备跨平台可迁移性,还是仅对 NVIDIA Jetson Orin 具有偶然适用性?
本文提出的硬件协同设计定律主要基于在 NVIDIA Jetson Orin 上对 1,942 种架构的实测与拟合,虽然声称支持“跨平台推广”,但其核心的损失-延迟建模高度依赖于特定硬件的 Roofline 参数(如带宽、算力)和内存层次结构。若将同一套模型迁移至不同架构的边缘设备(如 TPU、NPU 或移动端 ARM 处理器),其 KV-cache 访问模式、内存带宽与算子调度行为将发生根本性变化,原拟合的延迟模型可能失效。尽管作者建议在新平台上进行少量验证,但并未给出跨平台预测误差的理论上限或矫正机制。因此,该“定律”本质上是平台特定的经验拟合,缺乏对硬件异构性的鲁棒性保证,是否具备通用性仍存疑?
本文提出的硬件协同设计定律具备理论框架的跨平台迁移能力,而非仅适用于 NVIDIA Jetson Orin。 关键在于其核心方法论是参数化的:硬件特性通过峰值算力和内存带宽等参数注入模型,而非硬编码于定律本身。部署至新平台时,只需测量该硬件的关键参数,重新计算归一化预算和,即可通过相同的理论公式预测最优架构。因此,迁移的是结构性关系,如深度与宽度的反比关系、宽度-稀疏度耦合规律,而非具体的数值。作者强调在新平台上仍需少量小规模训练验证,正是为了校准系统级偏差,这证明了框架的鲁棒性而非偶然性。
问题二:KV-cache 与稀疏激活的耦合效应是否被充分建模,尤其在长序列解码场景中?
本文在延迟建模中引入了 KV-cache 对 GQA 的依赖,但在理论优化部分中,KV-cache 项仅作为修正因子,并未与激活率、FFN 扩展比形成强耦合。然而在实际长序列解码中,KV-cache 的存储与访问延迟会随序列长度线性增长,且与稀疏激活中的专家数量共同竞争有限的内存带宽。当前模型将激活率仅与存储约束关联,忽略了其对 KV-cache 带宽的间接影响,可能导致在长输出场景下低估延迟或高估稀疏收益。是否应建立激活率与 KV-cache 带宽的联合约束,以更精确刻画解码阶段的资源竞争?
本文对 KV-cache 与稀疏激活的耦合效应已进行显式建模,尤其在解码阶段。 主要体现在三个方面:
- 解码延迟约束中明确包含KV-cache项:如公式(45)所示,KV-cache的访问量与序列长度、模型维度成正比,并受GQA分组数的调节。
- 双约束场景下的耦合量化:在定理5.3(b)的解码与内存双约束条件下,引入KV-cache修正项(详见附录H)后,最优激活率的求解需解二次方程,这表明量化与KV-cache存在间接耦合(通过影响总参数量约束,间接作用于分母)。
- 长序列效应:延迟公式中的序列长度项直接体现了其对KV-cache带宽需求的线性放大作用。
当前模型假设激活专家数固定,因此不直接影响单步KV-cache访问量。这一假设在批大小为1的解码场景中合理。但在长序列下,若内存带宽被KV-cache占满,专家权重加载的延迟占比会下降。模型已通过公式(40)中的耦合项捕捉了这一竞争关系。
四、帕累托最优架构搜索
本章提出PLAS(帕累托最优大语言模型架构搜索框架,Pareto-optimal LLM Architecture Search),这是一个联合建模训练损失和推理延迟的框架,旨在实现硬件感知的架构选择。
- 首先,通过拟合170个已训练架构的结果构建经验损失模型,无需穷举搜索即可近似预测验证损失。
- 其次,通过基于Roofline模型的解析建模和在边缘平台上的实际测量,来表征模型的推理延迟。
- 最后,整合损失与延迟模型以推导帕累托前沿,并展示其如何在不同应用场景的延迟预算下指导架构选择。
图3展示了该框架的整体工作流程。

图 3 | 帕累托最优大语言模型架构搜索框架(PLAS)概述。该框架整合了(1)基于缩放定律拟合的经验损失建模、(2)基于Roofline模型的延迟估计,以及(3)帕累托前沿构建,以实现硬件感知的架构选择。
4.1 基于缩放定律的损失预测
获取高保真的参数化缩放定律具有挑战性。我们的拟合工作基于170个已训练的Transformer配置,涵盖稀疏型(混合专家模型,MoE)和稠密型架构。每个架构均在严格受控的设置下,以固定的100亿令牌训练预算完成训练。
我们精心选择架构配置以覆盖整个设计空间,同时调整模型深度、宽度、MoE稀疏度、前馈网络(FFN)扩展比和键值(KV)缓存维度,并规避退化或病态的参数区间。
4.1.1 预训练协议
所有模型采用相同的训练设置以保证公平对比:
- 训练数据:每个配置均在100亿令牌的数据集上训练,该数据集融合了通用语料、数学推理语料和代码语料,足以观测模型的缩放特性,同时保持计算的可处理性。本训练语料将在论文发表后公开。
- 优化策略:所有模型均使用AdamW优化器训练,超参数设置为β₁=0.9,β₂=0.95,权重衰减系数为0.01。学习率采用余弦衰减策略,从初始值衰减至最小值,并在训练前0.2%的步骤中进行线性预热。为提升训练稳定性(尤其是针对MoE配置),采用了QK归一化策略。所有实验的全局批次大小均设为256。
- 评估方式:模型性能通过约10亿令牌的预留验证集上的上游验证损失评估,取最后10个优化步骤的平均值以降低方差。同时,通过在WikiText-2测试集上报告困惑度(值越低表示预测效果越好),进一步评估模型的泛化能力。
4.1.2 缩放定律拟合
我们以120个训练配置为基础,采用非线性最小二乘法拟合公式(2)形式的参数化缩放定律,并预留17个配置作为验证集。这种全面且结构化的探索实现了具有强泛化能力的稳定拟合。

图 4 | 缩放定律拟合质量。训练集(138个配置);验证集(32个预留配置)。该拟合结果印证了缩放定律的高保真度,即便在跨越稠密和稀疏的异构架构空间中,拟合仍保持稳定。高R²值说明模型能精准预测不同架构的验证损失,大幅降低了架构探索的试错成本,也为后续结合延迟模型开展帕累托分析奠定了可靠的实证基础。
如图4所示,所得模型在训练集上的决定系数R²为0.975,在验证集上的R²为0.952。实际中很难实现如此高的预测精度,因为跨架构维度的损失空间具有高度非凸性,且常受参数耦合效应的干扰。
尽管该拟合在包含稠密和稀疏模型的高度异构架构空间中进行,但拟合得到的缩放定律在模型深度、宽度、稀疏度和FFN扩展比上均表现出稳定且一致的指数。该一致性可与以往的实证缩放分析相媲美,同时在预留配置上实现了更强的泛化性能,表明其鲁棒性优于面向特定架构的拟合方法。
至关重要的是,拟合的高质量验证了我们的核心前提:当训练计算量、数据预算和优化协议固定时,架构层面的损失可被显式且可预测地建模,从而能够在硬件约束下进行合理的外推和帕累托最优架构选择。
4.2 延迟建模
为实现高效的架构搜索,我们需要快速且准确的延迟估计方法,能够在不进行穷尽测量的情况下评估数万个配置。本框架将基于Roofline模型的解析建模作为主要的评估后端,并对排名靠前的候选架构进行实证验证。
4.2.1 基于Roofline模型的预测
我们通过比较每个算子的算术强度与硬件能力,将其划分为计算受限或内存受限类型,进而估计推理延迟。
对于每个算子,我们根据浮点运算数、内存访问量和硬件峰值吞吐量(计算能力和内存带宽)计算延迟。这种解析方法能在约20分钟内完成5万余个配置的评估,非常适合大规模的架构探索。
为保证预测的保真度,我们使用vLLM推理引擎,通过子进程隔离实现精准的GPU内存统计,对排名靠前的帕累托候选架构进行实证测量验证。Roofline模型的预测结果与实测延迟表现出强相关性,证实了该解析方法在架构排名中的可靠性。
4.2.2 工作负载配置
针对面向自动驾驶中车载大语言模型(VLA)工作负载的端侧部署,我们聚焦于批次大小B=1、1024个输入令牌和16个输出令牌的配置。在该设置下:
- 预填充延迟随输入序列长度缩放,这是由注意力计算的O(N²)复杂度导致的,且在中等序列长度下主要受计算能力限制。
- 解码延迟由内存中的权重加载主导,因为每个令牌的生成都需要访问完整的模型权重,而每加载1字节权重仅需执行少量计算。
合适的优化目标取决于工作负载特性:
- 对于令牌吞吐量为关键指标的交互式或流式应用,优化解码延迟。
- 对于长上下文处理且短输出的场景,优化预填充延迟。
- 对于均衡型任务,优化端到端总延迟。
如4.3节所示,不同的优化目标会得到截然不同的最优架构,这也印证了我们开展多目标帕累托分析的必要性。
4.3 帕累托前沿分析
基于显式的损失和延迟模型,我们将架构选择转化为双目标优化问题,旨在确定能同时最小化验证损失和推理延迟的帕累托最优设计。该公式化实现了精度-效率权衡的系统性探索,并支持在硬件约束下进行合理的、场景感知的架构选择。
4.3.1 前沿构建
对于一组架构配置的损失预测值L和延迟估计值D,我们将实际的帕累托前沿定义为:不存在其他配置在损失和延迟两方面均不劣于该配置的集合。
我们采用自适应搜索策略构建帕累托前沿:
- 首先,通过拉丁超立方抽样生成初始架构集,基于预测的损失和延迟确定当前的帕累托最优集。
- 随后,通过在前沿的稀疏覆盖区域和帕累托最优点的局部邻域中抽样新配置,迭代优化搜索过程。
- 该过程不断重复,直到帕累托前沿趋于稳定且无进一步优化空间。
4.3.2 精度-性能权衡
图5展示了三种延迟优化目标(预填充、解码、总延迟)下的帕累托前沿,且均对比了FP16和INT8量化方案。

图 5 | 英伟达 Jetson Orin 平台上,预填充(1024 个令牌)、解码(16 个令牌)和总延迟优化目标下的帕累托前沿,对比 FP16 和 INT8 精度。 该图直观展现了低精度量化对端侧 LLM 效率的提升。INT8 量化能在所有优化目标下,将帕累托前沿向低延迟方向移动,表明其在相同损失下能有效降低延迟。然而,实测的加速比明显低于理论上的 2 倍提升。
这种次线性缩放主要由两个因素导致:
1. 计算精度不匹配:INT8 加速仅适用于线性操作(如矩阵乘法),而注意力层的 softmax、层归一化及激活函数等非线性组件仍需采用更高精度计算。
2. 精度转换开销:层间的量化和反量化操作会引入额外开销,部分抵消了低精度计算带来的收益。
这些发现表明,要充分发挥量化推理的潜力,需要设计协同优化的架构,以最小化非线性操作的开销并降低精度转换的频率,这是未来研究的一个重要方向。
4.3.3 架构选择指导原则
帕累托前沿为不同延迟预算提供了一系列最优配置。下表将典型的延迟目标与应用领域对应,为从业者提供可落地的架构选择指导。
表 2 | 典型边缘部署场景的延迟要求
| 应用领域 | 延迟目标 | 设计依据 |
| :— | :— | :— |
| 具身智能 | 解码延迟 < 20 毫秒 | 实时交互需求 |
| 智能家居 | 总延迟 < 500 毫秒 | 对话式响应需求 |
| 自动驾驶 | 总延迟 < 100 毫秒 | 安全关键决策需求 |
| 私有服务部署 | 总延迟 < 2 秒 | 端侧部署的质量优先需求 |
为特定目标应用选择架构时,从业者可以遵循以下步骤:
1. 确定预算:根据系统需求确定延迟预算,并结合工作负载特性明确优化目标(如预填充、解码或总延迟)。
2. 查阅前沿:查阅对应优化目标的帕累托前沿,找到在目标延迟下运行的配置。该配置能在既定预算下实现最低的损失。
3. 提取参数:直接提取并部署该配置对应的架构参数,如图 6 中不同区域所示。

图 6 | 不同应用对应帕累托前沿上完全不同的区域。 这一特征印证了端侧 LLM 架构的场景特异性。具身智能、自动驾驶等低延迟需求场景对应前沿的低延迟区域,而私有服务等质量优先场景则对应低损失区域。设计时需先根据应用的延迟预算锁定前沿区域,再选取对应架构,不存在能适配所有场景的通用最优架构。
4.3.4 架构参数演化
图 7 追踪了在不同优化目标下,随着延迟预算的增加,帕累托最优架构的演化规律。

图 7 | 预填充优化(上)、解码优化(中)和总延迟优化(下)目标下,帕累托前沿上的架构参数演化,对比 FP16 和 INT8 精度。 随着延迟预算增加,最优配置的深度、宽度、专家数量和 FFN 扩展比呈现系统性变化。无论哪种优化目标,INT8 精度都能让参数演化向更高效的方向偏移。当延迟预算放宽时,架构均先增加宽度再扩展深度。预填充与解码优化的专家数量配置差异显著,为不同延迟预算下的参数调优提供了直观参考。
该分析揭示了几个关键模式:
-
混合专家模型的主导地位:在所有延迟区间内,稀疏 MoE 架构在帕累托最优配置中的占比均为 100%。在端侧部署典型的批次大小为 1 的约束下,MoE 模型的效率优于稠密模型:MoE 能提供更大的模型容量(总参数数),同时保持每个令牌的激活参数数相当,从而实现更优的每浮点运算数损失权衡。这一发现强烈支持在边缘部署场景中采用稀疏架构。
-
宽而浅的架构偏好:与传统大语言模型偏好“深而窄”的设计不同,帕累托最优配置呈现出独特的“宽而浅”模式:模型深度保持相对受限(通常低于 20 层),而宽度远大于同规模的传统模型。深度和宽度均随延迟预算增加而增大,但宽度会更早达到设计空间上限,此后额外容量将分配给深度。这一模式表明,在严格的延迟约束下,宽度相比深度能以更低的单位延迟实现更高效的损失降低,这对端侧模型设计具有重要意义。
-
阶段相关的专家配置:受预填充和解码阶段截然不同的计算特性影响,两个阶段的最优 MoE 配置差异显著:
- 预填充阶段:在端侧场景中,每个专家处理的输入令牌数相对较少,增加专家数量需要加载更多参数,却无法实现成比例的计算利用率,这会使系统瓶颈从计算受限转向内存受限,导致硬件效率下降。因此,预填充优化的配置倾向于使用更少的专家,且仅当延迟预算放宽时,专家数量才会逐步增加。
- 解码阶段:在批次大小为 1 的情况下,每个令牌仅激活固定的部分专家,因此增加专家总数带来的延迟开销可忽略不计,同时能显著提升模型容量。因此,解码优化的配置倾向于在设计空间内最大化专家数量。
-
路由策略:两个阶段均一致偏好 Top-K=1 的路由策略(每个令牌仅激活 1 个专家),因为在内存受限的解码阶段,每个令牌激活多个专家会显著增加内存带宽的消耗。
-
总延迟优化下的均衡配置:当优化端到端总延迟时,最优的专家数量需要在预填充和解码的贡献之间进行权衡:预填充主导的工作负载(长输入、短输出)偏好更少的专家,解码主导的工作负载(短输入、长生成)偏好更多的专家。对于许多实际应用中典型的输入-输出均衡比例,最优配置会收敛至中等的专家数量(通常约 8 个),这与近期工业界落地模型的设计选择一致。
-
紧凑的前馈网络扩展比:值得注意的是,端侧约束下的最优 FFN 扩展比远小于标准 Transformer 设计中采用的 4 倍。在许多帕累托最优配置中,小于 1 倍的扩展比成为可行的设计选择,这表明在内存受限的推理场景中,将 FFN 宽度的参数重新分配至其他维度(如更多的专家或更大的模型宽度)能实现更高的效率。
4.3.5 实证验证
为验证感知硬件的架构选择的实际收益,我们将其与现有的工业界落地模型进行实证对比。
首先,使用 vLLM 在目标硬件(英伟达 Jetson Orin)上测量 Qwen2.5-0.5B 模型的推理延迟,再从本框架中找到与该实测延迟匹配的帕累托最优架构,如图 8(a) 所示。为保证公平对比,两个模型均采用完全相同的数据集混合方案和优化协议训练。

图 8 | 英伟达 Jetson Orin 平台上的实证验证。 (a) 标注了协同设计模型和 Qwen2.5-0.5B 的帕累托前沿;(b) 训练损失曲线显示帕累托最优架构的收敛速度更快。 该实证结果直接验证了 PLAS 框架的实用性。协同设计模型与 Qwen2.5-0.5B 延迟相当,但在帕累托前沿上损失更低,且训练收敛更快。在下游 WikiText-2 数据集上,协同设计模型的困惑度降低了 19.42%(分别为 50.88 和 63.14)。这证明感知硬件的架构设计能在不牺牲部署效率的前提下显著提升模型质量,验证了 PLAS 框架的实际实用价值。
4.3.6 研究发现总结
帕累托分析的核心发现总结如下:
稀疏架构占主导地位:在端侧批次大小为1的推理场景中,MoE配置是所有帕累托最优设计的唯一选择,能够实现更优的模型容量与计算效率权衡。
偏好宽而浅的设计:在延迟相当的情况下,最优架构比传统设计更宽、更浅。在严格约束下,增加宽度能以更高效的方式降低模型损失。
阶段特定的专家配置:预填充阶段和解码阶段需要完全相反的专家配置。总延迟的优化需要平衡两者对延迟的贡献。
紧凑的FFN扩展比:最优的FFN扩展比远小于传统的4倍,小于1倍的扩展比成为可行的选择。
量化有效但呈次线性:INT8量化能持续优化帕累托前沿,但由于非线性操作和精度转换开销的影响,其收益呈次线性增长。
不存在通用的最优架构:最优设计与硬件平台和工作负载强相关,架构无法在不同平台或部署场景间直接迁移。
这些发现为设计端侧大语言模型提供了可落地的指导,完整的帕累托前沿能为特定部署约束实现精准的架构选择。本文将开源PLAS框架和训练后的模型检查点,以推动感知硬件的神经架构设计领域的进一步研究。
五、感知硬件的架构优化理论框架
5.1 从实证搜索到合理优化
4.3节通过对1942个架构的大规模搜索,实证发现了帕累托前沿。该方法虽有效,但引出了一些根本性问题:能否在不进行穷尽搜索的情况下预测最优架构?帕累托前沿受哪些结构原则支配?所得解能否推广至新的硬件平台?
本章节通过构建理论框架来解决这些问题。该框架能推导出不同硬件约束区间下最优架构的闭式解。我们不再将帕累托最优设计视为纯粹的实证结果,而是将架构选择形式化为一个显式的约束优化问题。
核心见解:不同的硬件约束区间会产生性质截然不同的最优解,尤其是在稀疏度(MoE激活率)的分配方式上。这解释了为何某些架构模式会持续出现在实证的帕累托前沿上。
5.2 问题公式化与约束类型
我们将硬件协同设计问题公式化为一个优化问题,决策变量包括模型深度、宽度、FFN扩展比、MoE激活率和分组查询注意力(GQA)比。
基于Roofline模型分析,我们确定了三种主要的硬件约束类型:
- 预填充约束(计算受限):形式为计算量约束,主要影响模型的预填充阶段。
- 解码约束(带宽受限):包含权重加载和KV缓存访问两部分,形式为内存带宽约束,主要影响令牌生成阶段。
- 内存约束(存储受限):考虑所有模型参数的存储开销,形式为存储容量约束。
关键观察:MoE激活率仅直接影响内存约束项,反映出稀疏度主要影响模型存储,而对每个令牌的计算过程影响不对称。这种非对称性是推导核心理论结果的基础。
5.3 不同约束区间的最优激活率
我们针对三种典型的约束区间刻画了最优MoE激活率:
- 仅延迟约束:推理速度受限,但内存充足。
- 仅内存约束:存储容量受限,但计算能力充足。
- 双重约束:硬件的计算能力和内存容量约束紧密耦合。
这些区间对应不同的部署场景:边缘设备通常受内存约束,车载平台通常受延迟约束,嵌入式系统则常面临双重约束。
定理 5.1(延迟受限区间):当仅存在延迟约束(内存无约束)时,最优策略是最大化稀疏度(即最小化激活率)。
解释:在延迟约束下,MoE的稀疏性带来了“无代价收益”:降低激活率能减少模型损失,且不会增加每个令牌的延迟,因为无论专家池的总数是多少,每次仅计算固定数量的激活专家。因此,对于延迟要求严苛的应用,这意味着应优先采用高稀疏度的路由策略(如Top-1),并在内存允许的范围内增加专家总数。
定理 5.2(内存受限区间):当仅存在内存约束(延迟无约束)时,最优激活率与模型宽度等因素存在一个闭式关系。
推论 1(宽度-稀疏度缩放定律):在内存约束下,更宽的模型应采用更稀疏的MoE配置。
解释:受内存约束的系统面临一个根本性权衡:存储所有专家的开销与专家总数成正比,但提升稀疏性带来的模型容量增益,对更宽的模型价值更高。该定理刻画了这一权衡的最优平衡点。
定理 5.3(双重约束区间):当同时存在延迟和内存约束时,最优激活率取决于哪个延迟阶段(预填充或解码)成为限制因素,其解具有不同的形式。
对比分析:预填充+内存约束的场景存在相对简洁的闭式解,而解码+内存约束的场景因KV缓存的耦合作用,解的形式更复杂。对于计算和内存约束紧密耦合的系统,从业者需要根据具体的约束比例来应用对应的公式。

5.4 最优深度、FFN扩展比和GQA配置
最优深度:在各类约束下,最优深度倾向于达到有效约束的上限,这揭示了深度与宽度之间存在根本性的权衡关系:在固定预算下,深度与宽度大致成反比,这解释了在实证帕累托前沿上观察到的“宽而浅”的逆缩放行为。
最优FFN扩展比与GQA比:两者均遵循结构化的闭式解。其形式依赖于一个聚合损失梯度,该梯度融合了稀疏性专家和稠密基础容量的贡献。不同约束区间下的最优解具有相同的核心结构,但系数和预算项会根据约束类型(预填充、解码或内存)进行调整。
- 在解码延迟约束下,需考虑KV缓存带来的额外带宽开销。
- 在内存约束下,公式中会引入与MoE激活率相关的因子。
这些系数差异是进行感知硬件参数调优的核心依据,能指导研究者为不同约束场景设计适配的FFN和GQA配置。

预填充和解码约束下系数的 2 倍差异(如 (c_{FFN}^{prefill}) 和 (c_{FFN}^{decode}))源于 (FLOPs:Bytes = 2:1) 这一基本关系,该关系反映了浮点运算数与内存访问量的比值:每个乘加操作计为 2 个浮点运算,但仅需加载 1 次权重参数。需注意的是,表 4 中解码场景的 (c_{GQA}^{decode}) 仅反映了权重加载的贡献;解码场景下 GQA 的完整导数还包含一个 KV-cache 修正项 (c_{GQA}^{KV})。这种结构性的非对称性具有重要的实际意义:在性能相当的情况下,预填充优化的模型应比解码优化的模型采用更小的 FFN 扩展比和更大的 GQA 值。
5.5 设计原则与实用指导方针
5.5.1 核心结构见解
理论分析得出了四个核心结构结论:
- 受内存约束的解具有场景无关性:最优参数 (alpha^*) 在预填充和解码阶段完全相同,因为内存约束仅与模型存储相关,与推理动态无关;
- 预填充和解码约束存在系数非对称性:源于 (FLOPs:Bytes = 2:1),FFN 和 GQA 的系数存在 2 倍差异;
- 解码约束存在 KV-cache 耦合:包含一项与 (s) 成正比的项,导致其具有预填充约束所没有的序列长度依赖性;
- 宽度-稀疏度缩放定律 (alpha propto d^{-2.3}) 表明:模型宽度翻倍时,激活率应降低约 2.3 倍,为内存受限部署中的稀疏度分配提供了合理依据。
5.5.2 可落地的设计指导方针
稀疏度分配策略:最优的稀疏度分配高度依赖于当前的有效约束区间。
- 延迟受限系统:从业者应将 (alpha) 设为 (alpha_{max}) 以最大化稀疏度(通常为 Top-1 路由策略,(alpha_{max} approx 0.5));
- 内存受限系统:宽度-稀疏度缩放定律(公式 9)为稀疏度分配提供了合理依据:更宽的模型需要采用更稀疏的 MoE 配置,以平衡容量增益和存储开销;
- 双重约束系统:应先计算约束比 (r_{prefill}) 或 (r_{decode}),确定适用的公式后,再应用对应的区间特定公式(公式 10 或公式 11)。其中 (r = T_{comp}/T_{mem}),(T_{comp})、(T_{mem}) 为对应阶段的延迟,(c_{GQA}^{KV}) 为 KV-cache 修正项。
- (a) 预填充+内存约束:(alpha^* = left( frac{c_{MoE}^{prefill}}{c_{MoE}^{mem}} cdot frac{1}{r_{prefill}} right)^{frac{1}{beta-1}})
- (b) 解码+内存约束:(alpha^* = left( frac{c_{MoE}^{decode}}{c_{MoE}^{mem}} cdot frac{1}{r_{decode}} right)^{frac{1}{beta-1}})
深度优先的预算分配:(d propto alpha^{-1/2.3}) 的关系为预算分配提供了系统性策略。从业者应首先根据参数预算和宽度-稀疏度定律选择目标宽度 (d),再使用 5.4 节的对应公式计算最优深度 (L),使其达到有效约束的上限;若计算得到的 (L) 超过架构设计空间的上限(如 32 层),则应迭代减小宽度 (d),直至得到可行的深度。这种深度优先的策略与实证观察一致:深度沿帕累托前沿单调递增,直至达到架构限制。
感知阶段的参数调优:表 4 中的系数非对称性可直接转化为优化策略:
- 预填充主导的工作负载(如长上下文问答):模型应采用更小的 FFN 扩展比(利用预填充场景的 (1/6) 系数,而非解码场景的 (1/3))和更大的 GQA 值(更多的 KV 头),以分摊投影开销,且在优化中可忽略 KV-cache 的开销;
- 解码主导的工作负载(如聊天机器人、代码生成):模型应采用更大的 FFN 扩展比,并仔细平衡 GQA 与 KV-cache 的带宽,因为解码场景的 (c_{GQA}^{decode}) 公式包含与序列长度相关的 KV-cache 修正项;
- 预填充和解码混合的均衡型工作负载:从业者应优化端到端总延迟;若存储为主要限制因素,则可采用内存受限的公式。
向新硬件平台的推广:构建该理论框架的核心动机之一,是实现新硬件平台上的高效架构搜索,而无需重复进行穷尽的实证评估。对于具备参数 ((Π, B, M)) 的新硬件平台,部署流程如下:
- 测量硬件参数:峰值计算能力 (Π)、持续内存带宽 (B) 和可用内存 (M);
- 定义应用需求:包括目标延迟预算 (T_{prefill})、(T_{decode}) 和工作负载配置 ((n, s));
- 计算归一化预算:(hat{T}{prefill} = T{prefill} cdot B / N),(hat{T}{decode} = T{decode} cdot B / N);
- 确定有效约束区间:计算约束比 (r_{prefill}) 和 (r_{decode}),若任一比值远小于 1,则系统受内存约束;若任一比值远大于 1,则系统受延迟约束;否则为双重约束;
- 预测最优参数:应用对应的定理预测最优参数 ((d^, L^, α^*)),并取整为可行的离散值;
- 验证与优化:通过 3~5 次小规模训练(每次 10~20 亿令牌)验证预测结果,测量实际延迟;若存在系统性偏差,则对参数进行微调。
如我们的部署案例研究所示,该流程将架构选择的时间从数月(完整的实证搜索)缩短至一周内(理论预测加小规模验证)。
示例:在一款新的边缘设备上部署模型,该设备的计算能力为 10TOPS、带宽为 50GB/s、内存为 4GB,且单令牌生成的目标解码延迟低于 100 毫秒。计算可得 (hat{T}{decode} approx 0.8) 吉字节,约束比 (r{decode} approx 0.25),因此该系统受内存约束。对宽度 (d=1024) 应用定理 5.2,可预测 (α^* approx 0.25);随后训练一个 20 层、1024 宽度、(α=0.25)、(g=8) 的 MoE 模型,即可验证这些预测,无需评估数千个候选架构。
5.5.3 局限性与未来拓展方向
该理论框架基于三个关键假设,这些假设界定了其适用范围:
- 损失模型外推性:拟合得到的损失缩放定律(公式 2)基于 170 个以 100 亿令牌为训练预算的架构,若外推至差异显著的训练预算或数据分布,预测精度可能下降,且需通过实证验证;
- 硬件模型理想化:延迟模型假设硬件符合理想的 Roofline 特性(公式 3),而实际系统存在核启动开销、缓存效应和算子融合等问题,可能导致理论预测与实测结果存在 10%~20% 的偏差;
- 架构组件标准化:该框架基于标准的 Transformer 组件(注意力、FFN、MoE),若拓展至混合架构(如 SSM-Transformer 融合架构)或线性注意力机制,需要重新推导约束形式,且其缩放特性可能与本文结果存在本质差异。
未来的研究可从以下方面解决这些局限性:
- 将训练动态(学习率调度、优化器状态)融入损失模型;
- 开发更精细的延迟模型,考虑算子融合和系统级效应;
- 将该理论拓展至混合架构和新型注意力机制;
- 在更广泛的硬件平台(包括 TPU 和专用 AI 加速器)上验证该框架。
尽管如此,当前的框架仍代表了一大进步,实现了基于显式优化理论、而非纯实证搜索的合理的、感知硬件的大语言模型架构设计。
5.6 小结
本章节构建了一套全面的感知硬件的架构优化理论框架。
- 定理 5.1 至定理 5.3 刻画了仅延迟、仅内存和双重约束区间下的最优激活率 (α^*),揭示了不同的硬件约束会产生性质截然不同的最优解;
- 宽度-稀疏度缩放定律(推论 1)确定了 (α propto d^{-2.3}),为内存受限场景中的稀疏度分配提供了合理依据;
- 最优的深度、FFN 扩展比和 GQA 配置揭示了预填充优化和解码优化架构之间的结构非对称性,而系数的 2 倍差异源于浮点运算数与内存访问量的基本比值 (FLOPs:Bytes = 2:1)。
推导得到的设计原则能实现新硬件平台上的快速架构选择,将部署时间从数月缩短至一周内。理论预测与 4.3 节实证发现的帕累托前沿高度吻合,在验证该框架有效性的同时,也为“为何某些架构模式会成为最优解”提供了更深入的解释。
- 1.8B 模型对标顶级翻译模型:W8A8C8-FP8 量化方案,平衡性能与低资源适配
- 端到端加速4.5倍:端侧SoC动态稀疏注意力 shadowAttn,兼容主流框架释放NPU性能
- SOLE:Softmax/LayerNorm软硬件协同优化,36倍加速与2.8+倍面效和能效比提升
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25733


