- 鲸林向海

“We believe that M100 represents a promising direction for the future convergence of general AI computing architectures.” 这句出自理想汽车 M100 论文的论断，不仅是一份技术宣言，更是一张投名状：在通用性与效率的永恒矛盾中，他们选择了一条少有人走的路。

当整个行业陷入“买英伟达还是造 ASIC”的二元叙事时，M100 用一篇 ISCA 级别的论文给出了第三种答案。

这不仅仅是一款车规级 AI 推理芯片的发布，更是一次对计算架构哲学的深度叩问：数据流——这个诞生于四十年前却始终难堪大任的“老古董”——是否恰恰是 AI 时代真正的“新王”？

本文介绍了理想汽车自研的 M100 编排式数据流架构，旨在解决当前 GPGPU 通用 AI 计算效率低、成本高，而领域专用架构（DSA）灵活性不足、难以适配快速迭代 AI 算法的行业痛点，满足自动驾驶（AD）、大语言模型（LLM）及智能人机交互的车载 AI 推理需求。

M100 采用编译器-硬件协同设计的数据流并行架构，核心创新包括：
* 取消多级缓存，通过编译器和运行时管理计算单元与片上/片外存储器间的数据流；
* 以张量为基本调度执行粒度，集成张量、向量、标量处理单元；
* 基于硬件同步计数器实现生产者-消费者模式的低开销同步，通过集中式指令分发器实现粗粒度任务编排。

图 2：无多级缓存的 M100 NPU 存储系统架构。此架构摒弃传统多级缓存，以 TPB 本地高带宽内存、片上 SRAM 与可编程 DMA 构建软件可控数据通路。论文指出缓存架构在大规模并行 AI 推理中存在扩展性瓶颈与性能不可预测问题，该设计通过显式数据调度实现计算与传输重叠，最大化吞吐。软件定义的存储层级降低硬件复杂度，契合数据流范式，在车载低时延场景中能效与确定性优于缓存一致性系统。

其 SoC 搭载 24 核 ARM Cortex-A78AE CPU 与自研 NPU，NPU 由 1 个中央控制块（CCB）和 14 个张量处理块（TPB）集群构成，采用 TSMC N5A 工艺，Die 尺寸 399.8mm²，配备 8 路 LPDDR5X 提供 273GB/s 峰值带宽。

性能测试显示，在相同功耗预算下，M100 在 UniAD 端到端自动驾驶任务中实现 30FPS 帧率， 是 NVIDIA Thor-U 的 3.8 倍，TrackFormer 模块加速达 6.3 倍；LLaMA2-7B 预填充阶段加速 1.95 倍，自研 MindVLA 模型解码阶段加速 3 倍 。

表 III：M100 与 Thor-U 上 UniAD 不同网络的性能对比。M100 在 UniAD 各组件加速比 1.2-6.3 倍，整体帧率 30FPS vs Thor-U 7.9FPS，加速 3.8 倍。论文中 M100 仅用 8 个 TPB 集群即达标自动驾驶实时要求，Thor-U 无法满足高速 NOA 需求。性能提升源于数据流架构高利用率与软硬件协同，核心模块加速显著，验证 M100 在车载自动驾驶推理的绝对性能优势。

图 13：M100 AI 编译器工具链概述。工具链包含时空调度器、图编译器、后端编译器，兼容 PyTorch 等框架与 ONNX 格式。编译器是编排式数据流的核心，时空调度将网络子图映射到 TPB 硬件，图编译器做融合与内存优化，后端生成硬件原生指令。软硬件协同消除传统架构编译瓶颈，动态调度适配张量粒度运算，保障硬件利用率，降低多场景模型部署门槛。

该架构在保持通用性的同时显著提升了硬件利用率与能效，为车载通用 AI 计算提供了新的技术方向。

本文目录

一、引言：当通用架构沦为“效能陷阱”
二、编排式数据流：一场向内求索的架构返祖
2.1 设计哲学的三大支柱
2.2 张量：被选中的“操作粒度”
2.3 穿越组件的灵魂：Tensor Walker Unit
三、架构解剖：从系统到单元的全面解析
3.1 系统之巅：M100 SoC 的布局
3.2 中央控制块：去中心化计算的中枢
3.3 张量处理块集群：近邻计算的黄金法则
3.4 张量处理块深度拆解：计算引擎的王者之心
四、编译与运行时的交响曲：空间-时间的“编舞”
4.1 空间-时间调度器：问题的拆解艺术
4.2 图编译与后端
4.3 运行时：最后的动态拼图
五、相关工作：计算架构的十字路口
5.1 从 GPGPU 到 DSA：光谱的两端
5.2 数据流的复兴与“黑马”M100
六、评估：用数据说话
6.1 UniAD：3.8 倍，不仅是数字
6.2 LLaMA2-7B 与 MindVLA：通用性的证明
结论与展望
7.1 结论总结
7.2 进阶分析
7.3 未来工作

一、引言：当通用架构沦为“效能陷阱”

回顾历史，深度学习的爆发与 GPGPU 的崛起几乎同步发生。NVIDIA 凭借其 SIMT 架构及随之而来的 Tensor Core，编织了一张覆盖从训练到推理、从云端到边缘的巨大生态之网。对于任何试图自研 AI 芯片的团队而言，它既是标杆，也是牢笼。

理想汽车在论文中坦承了一个现实——早期基于 GPGPU 平台的 AD 系统开发确实受益于通用可编程性与成熟的软件生态。然而，当进入车端部署阶段，面对极限边际成本和极端物理约束时，这种便利性迅速演变成了一种桎梏。论文一针见血地指出，这些通用方案“未针对特定 AD 软件栈进行裁剪（not tailored）”、“包含大量冗余的闲置功能（unused features）”，并且“总拥有成本高昂（high TCO）”。更为致命的是，传统架构中的缓存层级（Cache Hierarchy）在 AI 推理流式计算的冲击下，不仅带来了“优化上的挑战”，更注入了“不可预测性（unpredictability）”——对于以生命安全为底线的自动驾驶系统而言，这是不可承受之重。

这并非理想汽车一家所面临的困惑。当特斯拉 FSD、Waymo 等头部玩家纷纷转向硬布线 DSA 时，那条路也并非一片坦途。论文精准地捕捉到了这一结构性困境：DSA 虽然在特定任务上表现卓越，却“难以跟上快速演变的 AI 算法”。尤其是面对端到端 VLA 大模型的崛起，固定流水线的生命周期被急剧压缩，带来了极高的“重工程成本（reengineering costs）”。

这就是 M100 诞生的逻辑原点：它拒绝在“通用但低效”与“高效但僵化”之间做出选择。M100 的核心主张是，在深度学习领域内，存在一种比指令流更为本质的执行范式——数据流。论文将其架构命名为“Orchestrated Dataflow Architecture”（编排式数据流架构）， 这一命名的精妙之处不在于“Dataflow”，而在于“Orchestrated”。它暗示着硬件退居幕后，软件（编译器与运行时）走上前台，扮演乐团指挥的角色 。这不仅仅是架构上的创新，更是对硬件复杂度与软件智能的一次彻底的权责重组。

实验数据为这份野心提供了坚实的背书。在核心的 UniAD 基准测试中，【仅】动用 8 个计算集群（占整体算力 57%）的 M100 便实现了 30 FPS 的推理速度， 而在相同功耗下，NVIDIA Thor-U 仅为 7.9 FPS，这是一个高达 3.8 倍的残酷代差 。在 LLaMA2-7B 与内部端到端模型 MindVLA 的测试中，M100 同样展现出了从 1.95 倍到 3 倍不等的压倒性优势。

这些数字共同指向一个结论：由编译器与生产者-消费者同步机制驱动的数据流架构，或许才是通往通用 AI 计算效率的真正阶梯。

二、编排式数据流：一场向内求索的架构返祖

在芯片设计领域，“数据流架构”并非新词。早在冯·诺依曼架构确立统治地位的初期，以 MIT 的 Dennis 等人为代表的先驱便提出了数据流计算模型。其核心哲学朴素而有力：指令的执行不再依赖程序计数器，而是取决于操作数的就绪状态。

理想 M100 团队深刻理解经典数据流架构的“阿喀琉斯之踵”——过细的粒度带来了海量的同步开销，而复杂的 Token 匹配机制则吞噬了算力红利。为此，M100 进行了关键性的改良升级：将“编排”的权力赋予编译器与运行时，在宏观层面执行粗粒度的任务分发与同步，实现了从“野蛮生长”到“精耕细作”的范式跃迁。这不仅化解了传统设计的复杂性，更让架构展现出前所未有的确定性与可扩展性。

2.1 设计哲学的三大支柱

M100 的硬件设计并非各种功能的简单堆砌，而是建立在三个环环相扣的设计哲学之上，它们共同构成了区别于 GPGPU 与 DSA 的“理想方案”。

第一支柱：计算单元的“三位一体”融合

论文中最小的逻辑计算单元并非单一的 MAC 阵列，而是一个名为“计算块（Computing Block）”的异构融合体。

图 1：M100中的计算块，每个计算块由三类计算单元组成。这体现了M100对异构计算任务的颗粒度重组——并非简单的IP集成，而是以数据流为中心的紧耦合设计，大幅降低了不同计算范式间的通信延迟与数据中转开销。

如图 1 所示，M100 将三种截然不同的算力需求整合在一个紧耦合的“张量处理块（TPB）”中：

TCU ：面向矩阵乘/卷积的稠密算力，即论文中的“张量收缩引擎”。
CVU ：面向逐元素操作、激活函数、层归一化等向量运算的可配置流水线。
标量/CPU 核 ：基于 RISC-V X280，处置无法被张量/向量化的边界任务。

这种设计的精髓在于消除数据转运 。在 GPGPU 中，向量与张量计算往往需要跨越不同层级的内存进行数据交换，而 M100 通过共享本地高带宽内存（HBSM），让多种算力内核成为同一条数据流生产线上前后紧接的工序。论文明确指出，这是为了“以张量为粒度的流式架构”，直接省去了传统寄存器文件的频繁存取操作。

第二支柱：内存层级的“极简主义”

如果说 GPGPU 的存储架构是金字塔，那么 M100 的存储架构就是一条精心设计的环形高速公路。论文中最具反叛精神的设计抉择便是：几乎完全剔除了多级缓存 。

在 M100 的内存地图中，只有两级：每个 TPB 内部的 2MB HBSM（高带宽共享内存），以及片上的共享 SRAM 和片外的 LPDDR5X。数据移动完全由编译器通过可编程 DMA 显式调度。这一设计背后的逻辑冷酷且理性：在自动驾驶这类流式推理场景中，数据的时间局部性与空间局部性远不像桌面应用那样随机，其搬运模式具有极强的可预测性 。缓存系统那套基于历史访问模式的猜测与预取，非但难以奏效，反而成为功耗与延迟的确定性杀手。

为了支撑这一“无缓存”通信骨架，M100 布设了两条数据高速公路：

一条是具备高带宽、低拥塞特性的2D Mesh 总线 ，用于任意节点间的点对点通信；
另一条是传输效率极高的Data Ring Bus (DRB)，专为模型权重的广播与多播场景而生。

这种“用空间换确定”的做法，让片上数据流动的节奏完全落入编译器的掌控。

第三支柱：同步的轻量化武器——同步计数器

从指令驱动转向数据驱动，最大的挑战在于同步。M100 的答案是：同步计数器（SC） 。

图 3：并发处理引擎的双向生产者 / 消费者同步方案。该方案基于同步计数器（SC）实现双向协同，覆盖单对与多组引擎的同步逻辑。论文中此机制替代传统原子操作与缓存绑定同步，硬件计数器实现极低开销的状态更新与监听。同步粒度由软件调控，支持屏障、广播等模式，适配 NPU 多集群、多芯片扩展，解决数据流架构同步开销过高的痛点，保障张量运算流水线高效稳定运转。

论文用一张极为精妙的示意图（图 3）阐释了这一机制：

生产者在完成数据写入后，递增一个特定的 SC 值；
消费者在发起读取前，只需在硬件层面“监视”对应 SC 是否达到预期值即可。
以此双向扩展，消费者的消耗动作也会更新 SC，通知生产者缓冲区已被释放。

这套机制摒弃了传统的原子操作与锁争抢，将同步开销降到几乎可以忽略的流水线气泡程度。更重要的是，同步粒度完全由软件控制，这为编译器根据张量切分策略进行精准的流水线编排提供了硬件原语 。正如论文所述，这套机制从 TPB 内部无缝扩展至跨芯片多 NPU 的集群，真正实现了“数据即信号”的数据流理想。

2.2 张量：被选中的“操作粒度”

M100 设计原则的落脚点，在于唯一的“黄金颗粒度”——张量。

论文认为，AI 推理中的绝大多数操作天然是张量级别的。因此，M100 的指令集不是标量或向量的算术操作，而是定义了整块张量的“契约”：包括输入地址、形状、计算类型、输出去向等。

这种“以大制大”的设计带来了双重优势：

屏蔽了访存延迟 。单个张量操作的执行周期长达数万甚至数十万拍，张量流式进出存储器的时间被巨大的计算量完全覆盖。
简化了调度逻辑 。编译器只需排布粗粒度的“张量任务图”，无需深陷指令级并行的乱序泥潭。

2.3 穿越组件的灵魂：Tensor Walker Unit

为了让这套粗粒度的调度机制高效运转，M100 内部集成了一款看似低调、实则关键的模块——张量遍历单元 (Tensor Walker Unit, TWU)。从本质上讲，TWU 是一个高度灵活的地址生成器，它解决了张量数据在流经 HBSM 时，如何按照特定计算模式被“消费”这一核心难题。

图 10：3 级 TWU 示例。该三级张量遍历单元（TWU）支持配置多层循环参数，能够硬件直接生成卷积等算子所需的非线性张量地址。TWU 无需 CPU 参与地址计算，通过硬件自动生成访问序列，显著降低指令开销，并支持双缓冲切换。此组件是数据流架构高效访问张量的基石，保障了 TCU、CVU 等单元持续的数据吞吐，完美适配自动驾驶高分辨率图像及大模型张量的复杂寻址场景。

以卷积运算为例，其数据复用模式绝非简单的线性递增，而是涉及多层嵌套循环。TWU 允许编译器配置多层嵌套循环的初始值、步长与终止条件，硬件据此在每个时钟周期自动生成正确的读写地址。这意味着，即便是 Winograd 变换或矩阵转置这类复杂的访存模式，也无需额外的数据拷贝，TWU 即可动态完成地址映射，极大地减少了数据搬移的开销。它正是 M100 实现“计算与访存解耦”这一设计理念的关键推手。

unsetunset三、架构剖析：从系统级到单元级的全面解析unsetunset

架构的精髓在于连接。当我们将视角从设计哲学拉回到物理实现，M100 系统级芯片展现的是一幅由调度中心、异构计算集群与高速总线精密编织的蓝图。这不仅仅是一个神经网络处理器，更是一个专为 AI 推理数据流而生的片上网络。

论文中 M100 系统的构建，充分体现了理想汽车团队在工程落地方面的深厚功力。他们并非止步于概念验证，而是将数据流理念贯彻到了寄存器传输级的每一个细节。从负责全局调度的中央控制块，到直接执行计算的张量处理块集群，每一处设计都环环相扣，共同支撑起“编排”这一核心愿景。

图 4：M100 SoC 的高层框图。该框图展示了 M100 SoC 的完整车规级功能组件，核心为自研 M100 NPU，并集成了 24 核 ARM A78AE CPU、ISP、VPU、安全岛等模块。论文中该 SoC 专为车载 AI 推理设计，通过 8 通道 LPDDR5X 提供 273GB/s 带宽，支持 11 路摄像头输入，兼顾自动驾驶感知与座舱大模型交互。软硬件垂直整合有效降低了 BOM 成本，功能安全模块满足车规要求，适配车载多域融合计算。

3.1 系统之巅：M100 SoC 的整体布局

M100 系统并非 NPU 的孤立存在，而是一个完整的车载 AI 计算节点。如图 4 所示，该 SoC 集成了 24 个 ARM Cortex-A78AE 应用处理器、高达 64 GB 的 LPDDR5X 内存子系统（提供 273 GB/s 的惊人带宽），以及面向传感器的 MIPI-CSI 接口和图像信号处理器。

然而，整个 SoC 的绝对核心，毫无疑问是其自研的 NPU。从芯片面积占比来看，NPU 占据了压倒性的比重，这清晰地传达了理想的设计信号：CPU 等通用模块仅服务于系统调度与功能安全，而真正的计算风暴必须由数据流架构来承载。

图 5：M100 NPU 的高层架构。NPU 由 1 个中央控制块（CCB）与 14 个 TPB 集群组成，通过 Mesh 总线、数据环网（DRB）、指令链总线（ICB）互联。双互联网络分工明确：Mesh 支撑点到点的高带宽通信，DRB 负责高效广播，ICB 实现指令的链式分发。该架构支持算力横向扩展，12 个集群（86% 算力）即可满足主流任务，预留的缺陷集群提供了容错空间，兼顾了车载芯片的良率与性能。

3.2 中央控制块：去中心化计算的中枢神经

M100 的编排式数据流并非无政府状态，其调度中枢是中央控制块（CCB）。

图 6：CCB 架构。CCB 搭载了 4 核 RISC-V X280 CPU、定制向量引擎、32MB 片上 SRAM 与双 DMA 引擎，是 NPU 的指挥中枢。CCB 通过 ICB 分发张量指令，DRB 直连 DDR 实现权重广播，32MB SRAM 分为 4 bank 以保障并行访问。四对 CPU-引擎支持四任务并发，barrier 同步与中断机制保障了执行的有序性，将控制复杂度转移至固件，简化了硬件逻辑，完美契合软硬件协同的设计理念。

CCB 内部集成了 4 个带有向量引擎的 SiFive X280 RISC-V 核心，负责运行 NPU 固件。但这并非传统的 CPU 逐条下发指令模式。CCB 通过一条名为指令链总线（ICB） 的独特设计，以级联方式将长达数千比特的“宏指令”广播至 14 个 TPB 集群。一条指令即可描述一次完整的矩阵乘法或逐元素操作，其生命周期横跨数万个周期，因此 ICB 几乎不存在带宽瓶颈。

CCB 的另一个关键职能是充当数据流的“源头活水”。其内部集成了 32 MB 的 SRAM 与两组 DMA。在推理启动前，编译器规划好的模型权重可由 DMA 从 DDR 直接搬移至 TPB 的本地内存，甚至通过 DRB 广播至多个 TPB，实现权重的多播复用。 这种设计使得大量的数据搬运任务被剥离出计算核心，让 TPB 能够专注于其单一使命：极致的计算性能。

3.3 张量处理块集群：近邻计算的黄金法则

TPB 并非单兵作战，而是以 4 个为一组，集成在TPB 集群（TPB Cluster） 中。

图 7：TPB 集群架构。单个集群包含 4 个 TPB，共享指令队列、RISC-V 向量 CPU 与互联节点。论文指出集群化有两大优势：共享资源提升了计算密度，近距离的 TPB 实现了低时延通信，非常适合自动驾驶中小范围并行任务。跨集群通过 Mesh 总线协同，集群 CPU 通过中断响应 TPB 请求，统一的指令语义简化了编译调度，在硬件成本与算力效率之间取得了平衡，适配车载端侧对算力密度的严格要求。

这一设计的初衷直指一个核心问题：通信税。在大规模并行计算中，跨长距离的数据搬运往往比计算本身更昂贵。作者观察到，AD 推理任务中，有很大一部分计算图的划分天然局限在少数几个计算核之间。因此，让四个 TPB 共享一个指令缓冲、一个共享 CPU 以及近距离的互联总线，能够在这种“微并行”场景下获得极低的通信延迟与极高的带宽。只有当任务规模超出集群容量时，才通过跨集群的 Mesh 总线进行协作，但此时编译器的优化器会格外谨慎地评估通信开销。这种分层拓扑结构，是对“数据局部性”原理在硬件层面的一次致敬。

3.4 张量处理块深度拆解：计算引擎的王者之心

如果说架构是骨架，TPB 就是跳动的心脏。图 8 展示了 TPB 内部高度专业化的功能单元布局。让我们逐一审视这些“器官”如何协同工作，演奏出数据流的乐章。

图 8：TPB 架构。TPB 集成了 HBSM、TCU、CVU、两类 DMA、同步单元等专用模块，是 M100 的算力核心。论文中各单元分工协作：TCU 负责张量收缩，CVU 处理向量运算，DMA 管控数据搬运，同步单元保障数据流的有序性。HBSM 作为共享通信枢纽，消除了专用数据通路，简化了硬件。专用化模块的设计兼顾了算力与灵活性，完美适配卷积、注意力等 AI 核心算子，实现了端侧的高算力密度。

计算三剑客：TCU、CVU 与 RISC-V

张量计算单元（TCU）：TCU 内部采用了一个 8×64 的 MAC 阵列，每个 MAC 单元每周期执行一次 4 元素的点积运算。要理解其吞吐量，可以借用论文中的例子：一个尺寸为 32×32×32×64 的矩阵乘，在 1 字节元素精度下，TCU 可在 32 个周期内完成，恰好与 HBSM 提供的数据带宽完美匹配。这里，激活值沿着行方向广播复用，权重沿列方向广播，完美展现了脉动阵列的经典之美。

图 11：TCU 架构。TCU 采用 8×64 MAC 阵列，集成了激活流水线与双缓冲机制，面向卷积、矩阵乘等张量收缩算子。论文中每行复用激活数据、每列复用权重数据，32 周期即可完成 32×32×32×64 的矩阵乘，完美匹配存储带宽。双缓冲机制掩盖了访存延迟，维持了峰值算力。专用 MAC 阵列提升了计算密度，在 UniAD 等自动驾驶模型中实现了 4 倍以上的加速，完美适配车载低功耗场景。

可配置向量单元（CVU）：AI 模型“碎片化算子”的应对利器

CVU 内部集成了多个专注于单一功能的向量算术模块，这些模块可根据指令动态组合，形成多级流水线架构。以 Transformer 中高频使用的 Softmax 算子为例，CVU 能够将指数运算、归约求和、逐元素除法等步骤串联成一条虚拟流水线。数据无需回写内存即可完成多步计算，从而显著降低了对内存带宽的压力。

图 12：CVU 架构。CVU 由模块化向量算术单元与标量单元构成，既支持单算子执行，也支持多阶段流水线配置，可高效完成 Softmax 等运算。论文中，该单元适配了池化、归一化、Transformer 注意力等核心算子。对于复杂运算，可通过多指令执行，兼顾了效率与灵活性。相比通用向量核，这种专用化配置能降低功耗，更好地满足大模型与自动驾驶感知的向量运算需求，从而提升端侧推理能效。

CPU 启动单元（CSU）与 Gather/Scatter DMA：处理非张量化“死角”

面对少数无法进行张量化的运算“死角”，CSU 会触发中断，并调用集群内的 RISC-V CPU 介入处理。CPU 通过 VCIX 接口直接操控 TPB 内部的内存与定制化的 Gather/Scatter DMA，专门用于处理非连续访存模式。这种“硬件主攻、软件补位”的协作机制，确保了架构的绝对灵活性。

数据摆渡者：HBSM 与同步单元

TPB 的核心并非计算单元，而是它们所围绕的高带宽共享内存（HBSM）。

图 9：HBSM 架构。HBSM 采用 32 存储 bank 与交叉仲裁器结构，支持 32 字节交错寻址，并配备 8 个请求端口以平衡带宽与布线压力。论文中，轮询仲裁保证了访问的有序性，数据搬运与同步绑定，统一了生产者-消费者通信逻辑。20 周期的延迟可通过流式执行进行掩盖。该设计替代了传统缓存，以软件可控的分 bank 内存实现了高带宽与低冲突，从而支撑 TPB 单元的并发运算，显著提升了硬件利用率。

这 2MB 的存储并非简单的 RAM，而是一个集仲裁与同步机制于一体的智能枢纽。它采用 32 个 Bank 设计，以 32 字节粒度进行地址交织，提供共 8 个访问端口，支持生产者与消费者并行读写。

一个精妙的设计在于：HBSM 的访问仲裁胜出的那一刻，即被视为数据的“全局可见点”。配合同步单元（SU），当一个 TCU 完成数据写入并更新 SC 后，等待数据的 CVU 会立刻被唤醒并进行读取。这种将同步操作深度嵌入存储通路的设计，是 M100 实现细粒度流水线并行的最低层保障。

从 TCU 的脉动阵列，到 CVU 的可配置流水线，再到 HBSM 的智能仲裁，TPB 的每一个细节都在诉说着同一个故事：数据走到哪里，计算就发生到哪里，而同步信号如影随形。

unsetunset四、编译与运行时的交响曲：空间-时间的“编舞”unsetunset

如果硬件是乐器，那么软件就是乐谱与指挥。M100 论文毫不避讳地将编译器与运行时的地位提升至与硬件架构同等的高度。这在很多时候被视为芯片设计的“配角”，但在编排式数据流架构中，软件的智能直接决定了硬件利用率的天花板。

理想汽车构建了一套从图编译到后端指令生成，再到运行时即时编译的完整工具链。这套工具链的核心任务并非简单的设备驱动，而是对一个复杂的时空问题进行求解：如何将一个神经网络的计算图，最优地投影到一个具有多级通信约束的计算网络上，并编排其执行的时间节拍。

4.1 空间-时间调度器：问题的拆解艺术

M100 编译器的第一道关卡是空间-时间调度器（Space-Time Scheduler）。如图 13 所示，其工作流程体现了解决大规模并行问题的核心智慧：分而治之。

图 13：M100 AI 编译器工具链概述。工具链包含时空调度器、图编译器、后端编译器，兼容 PyTorch 等框架与 ONNX 格式。编译器是编排式数据流的核心，时空调度将网络子图映射到 TPB 硬件，图编译器负责融合与内存优化，后端则生成硬件原生指令。软硬件协同消除了传统架构的编译瓶颈，动态调度适配张量粒度运算，保障了硬件利用率，降低了多场景模型部署的门槛。

当一个计算子图（例如一个 Transformer Block）被加载，调度器会将其中的算子分配给物理上的不同 TPB（空间维度划分）。如果算子内部的张量过大，调度器会执行“张量切块”，将其分解为多个小张量，沿时间轴形成一条流动的管线（时间维度调度）。

图 14：M100 上的时空调度子图映射与张量流。调度将计算算子空间分布到多 TPB，大张量被切分为小张量，以流式时序执行，结合了数据并行与流水线并行。张量切分适配 HBSM 容量，避免了片上存储溢出，同时实现了计算与数据搬运的重叠。该机制是 M100 实现高利用率的关键，在 UniAD、LLaMA 等模型中实现了算力的线性扩展，解决了端侧 AI 推理的并行调度难题。

论文中的图示（图 14）虽然抽象，但逻辑清晰：输入张量先按维度进行分解，变为“迷你张量”，这些迷你张量沿着由调度器构造的硬件处理管道，在规划好的时间片内依次流经各个 TPB。这种编译决策是静态的，充分依赖了神经网络计算图的静态可分析性。换言之，调度器在离线阶段便已完成“兵棋推演”，将计算冲突与通信拥塞消灭在萌芽之中。

4.2 图编译与后端

在时空划片完成后，图编译器（Graph Compiler） 登场。它负责对计算图本身进行外科手术式的优化：算子融合以消除中间张量的读写往返；死代码消除与代数化简以裁减冗余计算；布局转换以适配硬件偏好的数据格式。这些是编译器领域的常规操作，但放在 M100 的语境下，每一次优化都直接意味着更低的 HBSM 访问频次与更高的 TCU 利用率。

后端编译器 则将优化后的图映射为具体的硬件指令。这里的指令并非汇编，而是 M100 特有的高级“宏指令”。这些指令详尽描述了张量的形状、步长、同步计数器 ID 等繁杂信息。

4.3 运行时：最后的动态拼图

M100 的运行时系统分为两部分：运行在 ARM A78AE 上的推理运行时和驱动程序，以及运行在 NPU RISC-V 内核上的固件（Firmware）。

固件层包含了一个巧妙的即时编译器（JIT），它接收后端生成的二进制代码，根据运行时实际的输入张量形状，动态修正部分地址与参数，并最终通过 ICB 将指令散发至指定的 TPB 组。

这种“离线主体编译 + 在线即时修正”的混合范式，在保证执行效率的同时，获得了动态适应可变输入的能力，是工程实践中的明智折中。

unsetunset五、相关工作：计算架构的十字路口unsetunset

在通用 AI 计算的演进版图上，M100 并非凭空出世。它站在三条技术路线的交叉点上：GPGPU 的通用帝国、DSA 的专用利刃，以及数据流架构的复兴梦想。

理解 M100 的位置，必须将这三种范式置于同一坐标系下衡量。论文在行文中并未设立独立的“相关工作”章节，但在引言和设计哲学部分，处处渗透着对其他技术路线的审视。本节将从第三方的角度，梳理这一领域的思想脉络，并指出 M100 在其中所做的创新与取舍。

5.1 从 GPGPU 到 DSA：光谱的两端

GPGPU 的统治地位建立在SIMT 编程模型 与Tensor Core 加速 这两大基石之上。其最大的资产是开放的软件生态（CUDA）和几乎无限的通用性。

然而，在边缘侧 AI 推理，尤其是车规级场景下，其弊端日渐凸显。 论文中提及的 NVIDIA Thor-U，虽与 M100 共享 273 GB/s 的相同带宽，但依然在数据流水线的利用效率上被 M100 抛开数倍。

另一端是 DSA 形态的完全硬化方案，如特斯拉 FSD 芯片。这类设计将特定模型结构硬联线为硅电路，能效比无出其右。但问题在于，AI 算法的演进正在以月为单位刷新。Transformer、VLA 等新范式的涌现，使得生命周期通常需 5 年以上的芯片面临“上市即落后”的风险。论文中反复强调的“适应快速演变的算法”正是对 DSA 这一结构性缺陷的回应。

5.2 数据流的复兴与“黑马”M100

数据流架构的复兴与 M100 的“编排”创新

近年来，数据流架构在学术界和工业界都迎来了新的发展浪潮。论文中引用了包括 Cerebras 的晶圆级系统、Tenstorrent 的 Tensix 核心以及 SambaNova 的可重构数据流单元等一系列代表性成果。这些架构共享一个核心理念：通过显式管理片上存储与计算单元之间的数据依赖关系，从而打破冯·诺依曼架构中指令发射环节的性能瓶颈。

M100 相较于上述工作的独特之处，在于其引入的 “编排”层次。

与 GPGPU 的对比：M100 摒弃了复杂的缓存一致性协议和动态线程调度机制，将决策权前移至编译器。 这带来了确定性的执行流程，有效消除了因缓存未命中而导致的尾延迟抖动。
与 DSA（特定领域架构）的对比：其计算单元（TCU/CVU）并非为单一模型定制的固定流水线，而是可配置的通用张量与向量引擎。 同一套硬件能够运行 CNN、BEVFormer 或 LLaMA 等不同模型，仅需更换由编译器生成的数据流图即可。
与其他数据流架构的对比：M100 开创性地在“粗粒度张量”层面执行数据流，而非传统的“细粒度操作”层面。这使其跳出了传统数据流机器同步复杂、扩展困难的困境。通过 SC 计数器和 ICB 指令链，它实现了“一种复古思想在现代工艺下的重生”。

M100 的精髓并非发明全新的单元电路，而在于精准地平衡了硬件与软件的权责边界：硬件提供丰富的可配置原语与低开销的通信同步机制，而编译器则承担起全部的性能调优重任。这种“重软轻硬”的策略，或许是 AI 芯片摆脱“流片即落后”循环的有效路径。

六、评估：用数据说话

架构的优劣，最终要落实到实际的应用性能上。理想汽车选择了一种最直接、也最具说服力的评估方式：将 M100 与当前车载 AI 芯片领域的顶尖选手 NVIDIA Thor-U 进行面对面、同功耗的基准测试对决。

表 I 展示了 NVIDIA Thor-U 与 M100 的硬件配置对比。两款芯片的 DDR 带宽均为 273GB/s。M100 采用台积电 N5A 工艺，芯片面积为 399.8mm²，小于 Thor-U 的 N4 工艺下的 415mm²。工艺与面积上的优势体现了 M100 架构的高效性，在同等存储带宽下，更小的面积有助于降低成本与功耗。测试采用相同的功耗预算来确保对比的公平性，这证明了 M100 是依靠架构优化而非堆砌硬件来提升算力，契合车载芯片的核心需求。

论文的评估聚焦于三个与理想汽车产品战略紧密相关的重量级应用：UniAD（端到端自动驾驶）、LLaMA2-7B（座舱大语言模型）以及 MindVLA（内部下一代 VLA 模型）。这种垂直化的评估策略，确保了结论对实际量产部署具有直接的指导意义。

表 II 列出了 UniAD 中网络模型的参数大小和 MAC 计数。数据显示，RegNet+FPN 骨干网络拥有 30M 参数，MAC 计算量为 2381.6 GFLOPS，是算力消耗的主力，且感知模块的算力需求高于预测模块。这一分布构成了自动驾驶实时性的关键瓶颈。M100 针对 CNN 骨干与 Transformer 感知模块进行了专项优化，通过 TCU 加速卷积、CVU 适配注意力算子，在该算力分布下实现了 30FPS 的实时推理，验证了其架构设计的合理性。

6.1 UniAD：3.8 倍，不仅是数字

图 15 展示了 UniAD 框架。UniAD 是一个端到端的自动驾驶算法，整合了 RegNet 骨干、BEVFormer 感知模块与 MotionFormer 预测模块。论文中以该模型为基准，将 ResNet 替换为 RegNet 以适配 M100 的算力，框架基于 Transformer 提供了充足的并行空间。M100 仅使用 8 个 TPB 集群即可实现 30FPS 的实时推理，远超市面上 Thor-U 的 7.9FPS，这验证了数据流架构在车载端到端自动驾驶任务中的性能优势。

UniAD 基准测试覆盖了从图像感知（RegNet+FPN）到 BEV 特征转换与预测的完整管线。这是当前高阶智能驾驶系统中最具挑战性的“全链路”负载。

下面的表 III 清晰地揭示了 M100 的优势：

表 III 对比了 M100 与 Thor-U 在 UniAD 不同网络上的性能表现。M100 在 UniAD 各组件上的加速比在 1.2 到 6.3 倍之间，整体帧率达到 30FPS，而 Thor-U 仅为 7.9FPS，加速比为 3.8 倍。论文指出，M100 仅用 8 个 TPB 集群就满足了自动驾驶的实时要求，而 Thor-U 无法满足高速 NOA 的需求。性能提升源于数据流架构的高利用率与软硬件协同，核心模块的加速效果显著，验证了 M100 在车载自动驾驶推理方面的绝对性能优势。

在计算量最大的 RegNet 特征提取部分，M100 仅需 13.1ms，速度是 Thor-U（57.4ms）的 4.4 倍。
在整个管线中，优势最小的 FPN 也获得了 1.2 倍加速，这充分体现了数据流架构在处理不同规模张量时的普适性效率。
帧率对比是核心结论：在满足严格延迟要求的条件下，M100 以 30 FPS 流畅运行，而 Thor-U 仅 7.9 FPS。这意味着，对于需要每秒处理 30 帧以上高清视频流的城市 NOA（Navigate on Autopilot）功能，M100 是当时唯一能够稳定支撑该任务的芯片平台之一。

图 16 展示了 M100 TPB 指令的详细执行轨迹。轨迹显示，CCB DMA、TPB 的 TCU/CVU 等单元持续并发运行，无明显空闲。论文中的这一结果证明，M100 通过软硬件协同实现了计算与传输的深度重叠，硬件利用率远超 GPGPU。各单元流水线化运转，同步开销极低，这印证了编排式数据流架构的高效性，也是 M100 在同等功耗下性能领先 Thor-U 的核心原因。

论文公布的硬件 Profiling 轨迹（图 16）解释了这一优势的物理根源。在绝大多数采样窗口，CCB 的 DMA 与 TPB 内的 TCU/CVU/CSU 等都处于持续不间断的活动状态，几乎满负荷运转。这表明编译器生成的“数据流流水线”成功地掩盖了访存延迟，硬件没有因数据等待而频繁陷入停滞。

6.2 LLaMA2-7B 与 MindVLA：通用性的证明

大语言模型是 M100 论证其“通用 AI 计算”能力的关键拼图。

表 IV 对比了 M100 与 Thor-U 在 LLaMA2-7B 推理阶段的性能。在 LLaMA2-7B 的解码阶段，M100 略逊一筹，但在预填充阶段快 1.95 倍。论文分析认为，解码阶段受限于带宽，由于两者 DDR 带宽相同，因此性能接近；而预填充阶段受限于计算，M100 的张量单元与同步机制优势得以凸显。该结果证明 M100 能够兼顾自动驾驶与座舱大模型推理，适配车载多域融合计算，弥补了传统 DSA 无法高效运行 LLM 的缺陷。

对于 LLaMA2-7B，在内存带宽严格受限的解码阶段，M100 与 Thor-U 性能持平（21.34ms vs 20ms）。这恰恰证明了在纯带宽墙限制的场景下，M100 的硬件效率毫不逊色于 NVIDIA 深耕多年的内存控制器设计。在计算密集的 Prefill 阶段，M100 则展现出 1.95 倍的明显优势，验证了其 TCU 单元在处理大矩阵乘法时的架构优越性。

表 V 对比了 M100 与 Thor-U 在自研 MindVLA（LLM 组件）上的性能。M100 在解码阶段加速 3 倍，在预填充阶段加速 2.1 倍。论文指出，MindVLA 采用 MoE 架构，M100 的数据流架构能够很好地适配专家并行与张量运算，性能远超通用 GPGPU。该结果验证了 M100 对下一代车载 VLA 模型的适配性，兼顾了通用性与专用加速，能够支撑下一代自动驾驶算法的落地，体现了架构的前瞻性。

在对自家下一代端到端模型 MindVLA 的测试中，M100 的解码与 Prefill 阶段分别获得了 3 倍 与 2.1 倍 的加速。这组数据极为关键，因为它证明了 M100 的灵活性。MindVLA 集成了 MoE 等更复杂的机制，而 M100 的编译器能够良好地适应这种动态路由的计算模式，体现了其相较于固化 DSA 的生命力。

结论与展望

7.1 结论总结

M100 的核心价值在于，它从架构层面证明了一个关键结论：在当今的 AI 推理场景，尤其是自动驾驶这类高度规范化的计算任务中，一种以张量为基本单位、由编译器驱动的数据流架构，能够在效率上明显超越 GPGPU，同时保持对各类先进模型的软件灵活性。

为实现这一目标，M100 采用了以下核心方法：

使用同步计数器（SC） 取代复杂的缓存机制和原子锁。
借助Tensor Walker Unit 实现无需内存拷贝的数据重组。
通过中央指令链（ICB） 完成宏指令的广播式发送。
构建时空调度编译器，将昂贵的硬件开销转移到可离线迭代的软件优化过程中。

实验数据表明，无论是在 CNN/Transformer 混合模型（UniAD）还是纯 Transformer 模型（LLaMA2-7B）上，M100 都在同等功耗下展示了更优的性能，成功完成了自身的可行性验证。

7.2 深入分析

任何架构都存在其局限性，M100 也不例外。

首先，编排式数据流的潜在挑战在于编译器。论文将大部分复杂性转移到了编译器和运行时，特别是“空间-时间调度器”。当模型结构高度规整（例如论文中测试的 ResNet/Transformer 变体）时，编译器能够做出精确的静态规划。然而，当计算动态性显著增强时——比如自动驾驶中来自不同传感器的异步多模态融合、动态稀疏激活的 MoE 路由，或是存在大量数据依赖控制流的后处理算法——静态编译器生成的流水线能否继续保持高利用率？这是一个值得深思的问题。论文并未阐明编译器在面对此类任务时，性能下降的坡度究竟有多陡峭。

其次，内存容量带来的隐性成本。M100 的无缓存设计高度依赖软件对数据的显式管理，这意味着芯片内片上存储（SRAM/HBSM）的容量直接决定了性能。当模型参数膨胀到超出片上 SRAM 的直接覆盖能力时，必须依赖与 DDR 进行频繁的数据交换，此时编译器的调度难度会呈指数级增长。相比之下，具备 Cache 的系统在模型规模超出片上存储时，拥有一种由硬件自动管理的“渐进式性能衰减”特性，而 M100 则可能面临“断崖式性能下跌”的风险，除非编译器能够实现完美的调度。

最后，生态方面的挑战。M100 证明了在理想汽车的核心算法上，通过垂直整合可以获得惊人的效率。但对于一个声称支持“通用 AI 计算”的架构，它能否吸引第三方开发者像使用 CUDA 那样为其编写高性能算子？目前来看，这仍然是一份自证清白的限定技术展示，而非开放平台的胜利宣言。

7.3 未来方向

论文在结论部分指出，M100 是理想汽车迈向通用 AI 计算架构的第一步。

未来的工作重点包括：

进一步优化编译器，使其能够适应更广泛、更具动态性的 AI 算法。
探索多 M100 芯片之间的更大规模扩展与任务级并行。
同时，文中也隐晦地提到，架构的“未来自证”特性要求其持续适配以令人瞠目速度演进的 VLA 模型。

NeuralTalk 作为本领域的观察者，我们认为 M100 的出现，其意义超越了理想汽车自身的垂直整合战略。

它释放了一个强烈的信号：AI 计算架构的演进方向，正不可逆转地从“以指令为中心”的设计，转向“以数据流图为中心”的设计。 在此趋势下，有三个方向值得业界共同探索：

可编程数据平面：M100 的 TWU 和 CVU 已经初步展现了这一概念。 未来，能否将数据通路的拓扑结构本身作为编译对象？例如，根据不同的模型结构，动态重构 HBSM 之间的互联方式，构建“面向模型的物理通信专线” ，这将是突破 Mesh 带宽瓶颈的潜在武器。
AI 赋能的编译器：M100 的编译器目前基于规则的启发式搜索。 面对愈发复杂的动态模型，使用强化学习或图神经网络来训练一个“AI 编译器”，让它学会在解空间中自动寻找最佳的时空划分方案，或许是弥补静态编译难以应对动态性的终极解法。
跨车云的数据流统一：为了真正摊薄成本，理想的下一代架构设计应考虑“车端推理-云端训练”的统一数据流指令集。如果训练集群也能采用类似的数据流范式，那么车端部署时，模型消除的将是“跨架构移植”带来的精度损耗与优化开销，实现真正的“训推一体”。

M100 不是终点，而是中国自研高端 AI 芯片的一次关键起跳。它用真实的硅片和数据宣告，在通往通用与高效的“珠穆朗玛峰”攀登中，数据流这条险峻小径，或许正是通往未来的最短路径。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/33436