关键词: MTIA 芯片、RISC-V 架构 AI 加速器、生成式 AI 推理、模块化设计、高速迭代、PyTorch 原生
每天,Meta 平台上的数十亿用户都在使用从个性化推荐到 AI 助手等各类 AI 驱动功能。定义下一个计算时代的 AI 模型,其迭代速度远超传统硬件的研发周期。在全球范围内规模化部署各类 AI 模型,同时尽可能降低成本,成为行业内极具挑战性的基础设施难题。对此,Meta 的应对方式是明确未来发展路径,当下提供灵活的解决方案,并随需求演变持续优化。
Meta 始终坚持布局多元化的芯片产品组合,采用自研与外部采购相结合的最优解决方案。其中,与博通深度合作研发的 Meta 训练与推理加速器(MTIA,Meta Training and Inference Accelerator)自研 AI 芯片系列,是 Meta AI 基础设施战略的重要组成部分,在以高性价比为数十亿用户提供 AI 驱动功能方面发挥着关键作用。

面对 AI 模型迭代速度远超硬件研发周期的行业挑战,Meta 在两年内完成了 MTIA 300-500 四代自研芯片的快速演进。该系列芯片基于模块化小芯片架构,核心性能实现跨越式提升:HBM 带宽从 300 到 500 代提升 4.5 倍,算力(FLOPS)增长 25 倍,工作负载覆盖也从排序与推荐(R&R)训练/推理,拓展至生成式 AI(GenAI)推理与训练的全场景。
其中,MTIA 300 为系列奠定了高性价比的基础,400 代实现算力比肩主流商用产品的突破,450 代针对性优化 GenAI 推理并将 HBM 带宽翻倍,500 代则进一步实现 50%的带宽提升与 43%的算力增长。
Meta 为 MTIA 制定的核心战略围绕三大支柱展开:每半年迭代一次的高速研发模式、适配 GenAI 推理需求爆发的推理优先设计,以及兼容 PyTorch/vLLM/OCP 的低门槛落地生态。
依托原生适配 PyTorch 的软件栈(支持无缝模型迁移、算子自动优化)与统一的硬件部署架构,MTIA 目前已在生产环境中部署数十万颗,不仅有效解决了传统芯片适配 AI 模型滞后的行业问题,更以高性价比为数十亿 Meta 用户稳定提供 AI 服务,成为支撑 Meta AI 基础设施的核心力量。
更重要的是,从MTIA 300到MTIA 500的演进并非简单的硬件堆叠,而是基于对实际工作负载的深刻洞察。例如,Meta观察到高带宽内存(HBM)的带宽是生成式AI推理的关键瓶颈。因此,HBM带宽从MTIA 400的9.2 TB/s,提升至MTIA 450的18.4 TB/s,并最终在MTIA 500上达到了27.6 TB/s,同时引入了针对性的低精度数据类型优化。
这种“以实际瓶颈驱动迭代”的模式,确保了硬件设计与快速演进的AI模型保持动态对齐。尽管硬件研发周期难以完全跟上模型迭代的速度,但Meta的策略是将这种“时间差”转化为“快速响应”的能力,而非追求一劳永逸的设计。
一、MTIA 的过去与未来
Meta已在国际计算机体系结构大会(ISCA)2023年和2025年的会议上发表学术论文,详细介绍了前两代MTIA芯片(MTIA 100和MTIA 200,曾命名为MTIA 1和MTIA 2i)。目前,已有数十万颗MTIA芯片在生产环境中部署,接入了大量内部模型,并完成了包括Llama在内的大语言模型的测试验证。
自MTIA 100和MTIA 200之后,Meta快速迭代研发了连续四代芯片:MTIA 300、400、450和500。这些新款芯片或已完成部署,或计划在2026至2027年间上线。其支持的工作负载也从最初的排序与推荐推理,拓展至排序与推荐训练、通用生成式AI工作负载,以及经过专项优化的生成式AI推理。
AI模型的迭代速度远快于传统芯片的研发周期。芯片设计通常基于对未来工作负载的预测,但当硬件量产时(通常需要两年),工作负载可能已发生巨大变化。为此,Meta没有选择长期押注单一设计,而是采用了迭代式研发思路:每一代MTIA都基于上一代进行优化,采用模块化小芯片设计以降低研发难度、提升组件复用性,融入最新的AI工作负载洞察与硬件技术,并以更短的周期完成部署。这种紧凑的迭代闭环,使硬件能更好地适配不断演变的模型,并加速新技术的落地。
目前MTIA芯片系列包括:
- MTIA 300:最初针对排序与推荐模型优化,其基础架构为后续面向生成式AI的芯片奠定了基础。该芯片已量产,主要用于排序与推荐训练。
- MTIA 400:随着生成式AI的兴起,MTIA 300迭代升级为MTIA 400,在保留对排序与推荐工作负载支持的同时,更好地适配生成式AI模型。MTIA 400支持由72颗芯片组成的纵向扩展集群,其算力表现可与主流商用产品媲美。该芯片已完成实验室测试,即将在数据中心部署。
- MTIA 450:为应对预判中的生成式AI推理需求爆发,MTIA 400进一步迭代为MTIA 450,并做了专项优化。鉴于HBM带宽是影响生成式AI推理性能的关键,MTIA 450的HBM带宽较MTIA 400提升了一倍。同时,Meta推出了为推理工作负载协同设计的低精度数据格式。MTIA 450计划于2027年初大规模部署。
- MTIA 500:持续聚焦生成式AI推理,MTIA 500的HBM带宽较MTIA 450再提升50%,并在低精度数据格式上实现了更多创新。MTIA 500计划于2027年大规模部署。
二、MTIA 芯片的迭代升级
从MTIA 300到MTIA 500,HBM带宽提升至原来的4.5倍,浮点算力(从MTIA 300的MX8精度到MTIA 500的MX4精度)提升了25倍。具体芯片规格如下表所示。
(注:部分供应商会报告双向带宽。将表格中的数值乘以2,即可得到相应的双向带宽。)
MTIA 300因其纵向扩展集群规模较小,且主要面向排序与推荐工作负载,因此配置了具有更高带宽(200 GB/s)的横向扩展网络架构。
短短不到两年内的快速性能跃升,充分体现了高速迭代战略的优势。
三、MTIA 300:高性价比的基础款
与前代产品相比,MTIA 300的核心优势包括集成式网卡小芯片、用于卸载集合通信的专用消息引擎,以及基于近内存计算的归约集合通信加速模块。尽管该芯片最初针对排序与推荐训练优化,但这些低延迟、高带宽的通信组件,为后续MTIA芯片高效支持生成式AI推理与训练提供了底层支撑。

MTIA 300由1颗计算小芯片、2颗网络小芯片和多组HBM堆栈组成。每颗计算小芯片包含一个由处理单元构成的阵列,同时预留了部分冗余PE以提升芯片良品率。
每个处理单元包含:
* 两个RISC-V矢量核心。
* 用于矩阵乘法运算的点积引擎。
* 用于激活函数与逐元素运算的特殊功能单元。
* 用于累加运算与PE间通信的归约引擎。
* 用于本地高速缓存数据读写的直接内存访问引擎。
关于上述处理单元组件的更多技术细节,可参考Meta在ISCA’25发表的论文《Meta’s Second Generation AI Chip: Model-Chip Co-Design and Productionization Experiences》。
四、MTIA 400:媲美主流产品的原始算力
随着生成式AI的爆发,Meta将MTIA 300迭代为MTIA 400,在支持排序与推荐工作负载的基础上,更好地适配生成式AI任务。
MTIA 400是MTIA 300的重大升级,其FP8精度浮点算力提升400%,HBM带宽提升51%。MTIA 300主打高性价比,而MTIA 400是首款在实现成本优化的同时,其原始算力能够比肩主流商用产品的MTIA芯片。它采用双计算小芯片设计,算力密度翻倍,同时支持升级版的MX8和MX4精度——这两种是实现高效生成式AI推理的关键低精度数据格式。由72颗MTIA 400芯片通过交换式背板连接组成的单机柜,构成了一个完整的纵向扩展集群。

由单机柜内72颗MTIA 400芯片组成的纵向扩展集群,搭配配套网络设备与空气辅助液冷机柜。MTIA 400也支持机房级液冷方案,但空气辅助液冷可快速在传统数据中心部署。
五、MTIA 450:面向生成式AI推理的专项优化
为应对生成式AI推理需求的快速增长,Meta在MTIA 400的基础上推出了MTIA 450,并从四个关键维度进行了针对性强化:
- 内存带宽翻倍:HBM带宽较上一代提升一倍,显著加速了模型解码(decoding)过程。
- 低精度算力跃升:MX4精度下的算力提升75%,有效加速了混合专家模型(MoE)中前馈网络的计算。
- 新增硬件加速模块:引入了专用硬件模块,以提升注意力机制和前馈网络等核心运算的效率,缓解了Softmax、FlashAttention等操作的性能瓶颈。
- 数据格式创新:采用了自研的低精度数据格式技术。
MTIA 450在低精度计算上实现了突破,其MX4精度下的算力达到FP16/BF16精度的6倍,凸显了低精度计算对推理任务的关键价值。同时,该芯片支持混合低精度运算,且避免了数据格式转换带来的软件开销。Meta自研的数据格式创新技术在保证模型精度的前提下,以极小的芯片面积代价换取了显著的算力提升。
六、MTIA 500:更高性价比的推理解决方案
随着生成式AI推理需求的持续攀升,Meta进一步推出了MTIA 500,旨在以更优的成本提供更强的推理能力:其HBM带宽提升50%,HBM容量最高提升80%,MX4精度算力提升43%。
MTIA 500进一步深化了模块化设计理念。它采用2×2的小型计算小芯片阵列,外围配置多组HBM堆栈和2颗网络小芯片,并集成了片上系统(SoC)小芯片,以提供与主机CPU的PCIe连接能力和横向扩展的网络支持。与MTIA 450类似,MTIA 500也集成了更多硬件加速模块和数据格式创新技术,以解决生成式AI推理中的性能瓶颈。
七、核心战略:高速迭代、推理优先与原生生态
在竞争激烈的AI芯片领域,MTIA的成功基于三大核心战略:
- 高速迭代式芯片研发
- 推理优先的设计思路
- 基于PyTorch等行业标准的原生开发
7.1 高速迭代
面对AI技术的快速演进,Meta已建立起约每半年推出一款新芯片的研发能力。这种高速迭代带来两大优势:
- 快速适配新兴AI技术:能够针对新出现的模型架构、低精度格式、部署技术等,在最新芯片中集成硬件加速,解决算力、内存、I/O之间的瓶颈转移问题。
- 快速采用最新硬件技术:例如最新的半导体工艺、HBM内存和先进封装技术。
这种能力得益于全栈式的可复用模块化设计。MTIA将加速器架构设计为小芯片组合系统,计算、I/O、网络均为独立可复用的模块。由于每颗小芯片可单独升级,优化周期得以缩短至数月而非数年。同时,不同小芯片可采用最具性价比的工艺制程。
在系统层面,MTIA 400、450、500均采用相同的机箱、机柜与网络基础设施。因此,每一代新芯片都能直接兼容现有部署环境,极大加速了从流片到生产部署的进程。 这种模块化、可复用的设计也降低了多代芯片研发与部署的资源消耗,而高度优化的芯片所带来的收益足以覆盖相关成本。
7.2 推理优先
主流GPU通常针对最严苛的大规模生成式AI预训练任务设计,再用于推理等其他任务,往往在性价比上并非最优。
MTIA采用了不同的思路:MTIA 450与500优先针对生成式AI推理进行优化,再按需支持其他工作负载,包括排序与推荐的训练/推理,以及生成式AI训练。这使得MTIA能够精准匹配未来爆发式增长的生成式AI推理需求。
7.3 低门槛落地
MTIA从设计之初就原生适配行业标准软硬件生态,包括PyTorch、vLLM、Triton以及开放计算项目(OCP),而非后期进行兼容性适配。
由于PyTorch诞生于Meta并已成为最主流的机器学习框架,MTIA自然采用了原生适配PyTorch的设计。PyTorch、vLLM与Triton共同为开发者提供了熟悉的软件栈,支持复用开源社区资源,简化了模型迁移流程。同时,MTIA的系统与机柜方案符合OCP标准,可无缝部署于数据中心。
八、MTIA软件栈:原生PyTorch体验
所有代际的MTIA芯片都提供一致的软件编程体验,其核心设计思路是原生适配PyTorch,为开发者提供熟悉且完整的生态系统。
8.1 MTIA软件栈概览

软件栈的核心特性包括:
无缝模型接入
MTIA同时支持即时执行模式(eager mode,便于调试)与图执行模式(graph mode,效率更高)。在图执行模式下,它直接集成PyTorch 2.0编译流程。开发者可以使用熟悉的torch.compile和torch.export工具来捕获和优化模型计算图,无需为适配MTIA而重写代码。这种兼容性使得生产模型可以同时在GPU和MTIA上部署。
编译器
在PyTorch前端之下,MTIA专属编译器将高层计算图转换为高度优化的设备代码。图编译器基于Torch FX IR与TorchInductor构建;算子编译器与底层后端则基于Triton、MLIR和LLVM开发,并针对MTIA进行了增强。团队改进了TorchInductor的Triton代码生成与算子融合逻辑,推出了支持MTIA的MLIR方言与Triton DSL扩展。编译器栈具备自动调优能力,能够通过多种编译策略自动优化工作负载。
算子开发
MTIA支持编译器驱动的算子生成与融合,开发者可以通过Triton与C++实现自动生成或自定义算子,并利用自动调优功能进行优化。此外,Meta还构建了AI智能系统来实现算子的自动生成。
通信与传输
MTIA的通信库Hoot集合通信库(HCCL)功能与GPU通信库类似,但具备独特优势。它依托MTIA芯片集成的网络小芯片实现高效通信,将集合通信任务卸载到专用消息引擎,并利用近内存计算加速归约操作。HCCL还支持计算与通信的算子融合以最小化延迟,其传输栈也针对低延迟事务进行了优化,降低了主机系统的运行时开销。
运行时与固件
MTIA 运行时与软件生态
MTIA 运行时负责设备内存管理、算子调度以及多设备间的执行协同,同时支持即时执行与图执行两种模式。它原生支持 TorchInductor 的即时式图执行模式,能够统筹计算与集合通信任务。这种设计可以同步捕获并调度计算与通信任务,提供类似显卡的使用体验,且系统开销极低。运行时通过基于 Rust 语言编写的用户空间驱动与系统交互,而非传统的 Linux 内核态驱动。其固件同样采用裸机 Rust 编写,在实现低延迟、高性能的同时,具备内置的内存与线程安全保障。
对 vLLM 的支持
得益于 vLLM 的插件化架构,其与 MTIA 的集成过程得以简化。MTIA 插件将闪电注意力、融合层归一化等核心算子替换为 MTIA 专属的高效算子,并通过自定义 torch.compile 后端实现了对图执行模式的支持。这使得 MTIA 能够直接复用 vLLM 的核心优化功能,例如预填充-解码解耦(将推理的编码与解码阶段分离以提升效率)和连续批处理(合并处理多个请求以提升推理吞吐量)。
生产运维工具
为了在生产环境中稳定运维规模达数十万颗的 MTIA 芯片集群,MTIA 提供了与主流显卡相当的企业级监控、性能分析与调试工具。同时,它具备独特的全栈、规模化可观测能力——覆盖从主机到设备端,贯穿软件、固件与硬件各个层面。其调试器支持细粒度的控制,包括处理单元级别的断点设置与协同单步执行。
九、MTIA:代代迭代,持续进阶
MTIA 芯片已在生产环境中大规模部署,验证了其在排序与推荐推理场景下的强大能力。最新规划的四代芯片(部分已上线,部分计划于2026-2027年推出)旨在进一步突破生成式AI推理的性能边界,支持排序与推荐模型的训练,并为未来的生成式AI训练任务奠定基础。
每一代 MTIA 芯片的设计都基于前代产品的研发经验,坚持与软件栈协同设计,并紧密跟随未来AI模型的发展趋势。其模块化、多小芯片的设计理念与垂直整合的协同设计思路,使得在保持系统级兼容性的同时,能够实现快速且复合式的性能提升。这些芯片的持续演进,共同推动着实现核心目标:为平台上的每一位用户,提供当下与未来最强大的AI体验。
[[IMAGE_4]]
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25661
