谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

谷歌AI芯片战略路线迎来重大转向。

在刚刚过去的Google Cloud Next 2026大会上,谷歌正式发布第八代张量处理器(TPU)。本次发布的亮点在于,谷歌首次针对AI模型训练推理任务,分别推出TPU 8t与TPU 8i两款独立芯片产品。

专注于AI模型训练任务的TPU 8t,在大规模、高计算需求的训练工作负载中表现尤为出色。其设计具备更大的计算吞吐量和更多的扩展带宽,相较于去年11月发布的第七代Ironwood TPU,性能提升2.7倍。

聚焦于推理/实时执行任务的TPU 8i,在设计时更多考虑了内存带宽,以处理对延迟最为敏感的推理工作负载。智能体在大规模交互时,即使是微小的效率问题也会被放大,因此这一设计尤为关键。

值得注意的是,与上一代相比,TPU 8i单芯片集成了384MB的静态随机存取存储器(SRAM),容量是其3倍,因此可以在硅片上完全容纳更大的KV缓存,显著减少长上下文解码期间内核的空闲时间。性能提升80%,尤其在大规模MoE模型的低延迟场景下表现突出。

谷歌高级副总裁兼AI基础设施首席技术专家Amin Vahdat在官方博客中表示,在智能体时代,模型必须解决问题,执行多步工作流,并不断从自身行为中学习。这意味着基础设施需要满足新的高要求。TPU 8t与TPU 8i两款芯片旨在应对最具挑战性的AI工作负载,并适应不断演化的大规模模型架构。

目前,这两款新品尚未正式对外发布。官方宣称,将在今年晚些时候开始向谷歌云客户提供。

芯片一经发布,谷歌CEO桑达尔·皮查伊(Sundar Pichai)也在X平台上发文宣传新品:“TPU 8t,优化训练;TPU 8i,优化推理。看起来真不错!”

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

帖文下引来一众网友热议。有网友认为,谷歌此次将TPU分为专门的训练芯片和推理芯片,似乎在承认当前AI算力基础设施的瓶颈已经转移——从FLOPs转向内存带宽和延迟。

考虑到推理任务的预期规模,如果工作负载存在差异,针对每个任务定制硬件,从成本角度看也是合理的选择。

“这可能类似于电视中的视频解码芯片。相比具备视频编码能力的芯片,解码芯片通常不会非常廉价或高效。”

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

大多数网友则认为,谷歌的新芯片意味着AI芯片市场竞争将愈加激烈,尤其对英伟达形成“冲击”。

一位网友调侃道:“谷歌正在发布新的TPU。英伟达,你得做更多的工作了。”

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

诚然,自2015年起,谷歌便使用自研处理器运行AI模型,并于2018年开始向谷歌云客户出租芯片。通过构建这种高度集成、针对特定任务优化的自有芯片生态,谷歌试图减少对外部供应商(尤其是英伟达)的依赖,打造更具自主可控性的AI基础设施。

但不得不承认,谷歌的芯片目前尚不能对英伟达构成全面威胁。与微软、亚马逊等云服务巨头类似,谷歌使用这些芯片是为了补充其基础设施中基于英伟达的系统,而非彻底取代英伟达。

据了解,谷歌还承诺,其云服务将在今年晚些时候提供英伟达的最新芯片——Vera Rubin。

谷歌在官方博客中详细介绍了两款芯片的设计细节,以下进一步了解。


TPU 8t:训练动力引擎

谷歌称,TPU 8t旨在将前沿模型的开发周期从几个月缩短到几周。通过平衡最高计算吞吐量、共享内存和芯片间带宽,同时保证最佳功率效率和计算时间,谷歌打造了一个系统,使得每个超级节点的计算性能比上一代提高近3倍,从而加速创新,确保客户持续引领行业。

  • 大规模扩展:单个TPU 8t超级节点可扩展到9600个芯片和2个PB的共享高带宽内存,内存带宽是上一代的两倍。该架构提供121 ExaFlops的计算能力,支持最复杂的模型使用单一的大规模内存池。
  • 最大化利用率:通过集成10倍更快的存储访问,并结合TPUDirect将数据直接加载到TPU,TPU 8t有助于确保端到端系统的最大化利用。
  • 近线性扩展:新的Virg网络与JAX和Pathways软件相结合,使TPU 8t可实现高达百万芯片的近线性扩展。

此外,除原始性能外,TPU 8t还针对超过97%的“良好利用率”进行了优化——这是衡量有效计算时间的指标,涵盖了实时遥测、自动故障检测和重定向等多项可靠性功能。

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

相较于上一代TPU,TPU 8t的关键提升主要包括以下几个方面:

  • SparseCore优势:TPU 8t的核心是SparseCore,这是一种专用加速器,旨在处理嵌入查找的非规律内存访问模式。Matrix Multiply Unit(MXU)处理矩阵运算,而SparseCore则卸载了所有数据依赖的聚集操作及其他集体操作,防止了通用芯片常见的零操作瓶颈。
  • VPU/MXU重叠与平衡扩展:TPU 8t旨在最大化已提供的FLOP使用率。通过实现更平衡的向量处理单元(VPU)扩展,架构最小化了暴露的向量操作时间。这使得量化、softmax和layernorms能够更好地与MXU中的矩阵乘法重叠,帮助芯片保持忙碌,而非等待顺序向量任务。
  • 原生FP4:TPU 8t引入原生4位浮点数(FP4)以克服内存带宽瓶颈。在保持大模型准确性的同时,提升MXU的吞吐量,即使在较低精度量化下也能维持准确性。通过减少每个参数的位数,该平台最小化了数据传输能耗,并允许更大的模型层在本地硬件缓存中适配,从而实现峰值计算利用率。

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

TPU 8t ASIC框图


TPU 8i:推理引擎

谷歌认为,在智能体时代,用户希望能够提出问题、委派任务并获得结果。TPU 8i正是为处理众多专业智能体的复杂协作和迭代工作而设计。智能体常常在复杂的工作流中“群集”起来,以提供解决方案和洞察力。

谷歌通过四项关键创新,重新设计了堆栈,以消除“等待室”效应:

  • 突破“内存墙”:为防止处理器闲置,TPU 8i配备288 GB高带宽内存,并搭载384 MB片上SRAM(是上一代的3倍),确保模型的活跃工作集完全保存在芯片内。
  • Axion动力高效性:将每个服务器的物理CPU主机数量翻倍,采用基于Axion Arm的定制CPU。通过使用非统一内存体系结构(NUMA)进行隔离,优化了系统整体性能。
  • 扩展MoE模型:对于MoE模型,将互联带宽提升至19.2Tb/s。新的Boardfly架构将最大网络直径缩短超过50%,确保系统作为统一的低延迟单元运行。

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

TPU 8i层次化的Boardfly拓扑结构,从四个完全连接的芯片构建基础单元,逐步发展为完全连接的八块板集群,最终将36个此类集群完全连接成一个TPU 8i超级节点。

  • 消除延迟:新的片上集体加速引擎(CAE)卸载全局操作,将片上延迟最多减少5倍,最大限度降低了延迟。每次集体操作的低延迟意味着更少的等待时间,直接提高了吞吐量,满足同时运行数百万个智能体所需的性能。

这些创新使每美元性能提升80%,即企业能够以相同成本为更多客户提供服务。

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

TPU 8i ASIC框图


参考链接:

以下是针对您提供的任务背景,对原文片段进行的技术编辑重写。我清除了广告、二维码及无关联系信息,保留了核心技术内容,并直接输出为 Markdown 格式,同时保留了 [[IMAGE_X]] 占位符。


技术重写稿:

第八代 TPU 细节解析:训练与推理分道扬镳

谷歌在 Cloud Next 2026 上正式发布其第八代张量处理单元(TPU),标志着 TPU 系列从“统一架构”向“训练 / 推理专用芯片”的正式分岔。

架构拆分:TPU-8T 与 TPU-8i

第八代 TPU 分为两个独立版本:

  • TPU-8T(训练):专为大模型预训练与微调设计,采用全新的三维堆叠内存与高频互连架构。与前代 TPU v5p 相比,训练性能提升 2.7 倍,能效比提升 40%。
  • TPU-8i(推理):聚焦低延迟与高吞吐量推理场景,支持 FP8、INT4 等低精度推理优化,特别适配 Agentic AI 与实时交互应用。推理性能提升可达 3 倍以上。

关键基准数据

根据谷歌官方技术深度博客(Cloud Blog)披露,在一个由 8192 张 TPU-8T 组成的 Pod 上,训练 1 万亿参数级稠密模型(如下一代 PaLM)的端到端性能较上一代提升超过 200%。同时,TPU-8i 在标准 MLPerf 推理基准测试中的延迟性能已接近 NVIDIA H200 的实时响应水平,部分任务甚至领先 15%。

谷歌发布第八代TPU:分训练与推理芯片,性能飙升2.7倍

对比 NVIDIA 生态

谷歌在此次发布中特别强调,TPU-8T 与 TPU-8i 的联合方案在 Agentic AI(如 AutoML、多智能体协作)场景中具备成本优势。尽管 NVIDIA 的 H100/B200 系列依然占据通用加速器市场,但 TPU 的自定义互连与端到端 Google Cloud 集成(如 GKE、Vertex AI)使其在超级计算机级别的训练任务中更具灵活性与可控性。

发布时间与部署

两款芯片均基于台积电 3nm 工艺生产,预计 2026 年第三季度起向 Google Cloud 客户开放。初期将以多 Pod 集群形式提供服务,单 TPU-8T Pod 可扩展至 16,384 张芯片,支持全 BF16/FP8 混合精度训练。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/31719

(0)
上一篇 1天前
下一篇 1天前

相关推荐

  • WhisperLiveKit:突破本地实时语音转写瓶颈的同步流式技术解析

    在人工智能技术快速发展的今天,实时语音转文字已成为众多应用场景的核心需求,从在线会议、远程教育到智能客服、媒体生产,高效准确的语音转写能力直接影响用户体验与业务效率。然而,长期以来这一领域面临两大技术困境:一是依赖云服务的方案存在数据隐私与传输延迟问题,尤其对金融、医疗、政务等敏感行业构成合规挑战;二是本地化方案如直接使用OpenAI的Whisper模型处理…

    2025年11月10日
    33800
  • OpenClaw重塑硬件生态:从AI眼镜到机器狗,如何成为AI的操作系统?

    OpenClaw正在悄然改变着智能硬件的消费逻辑与开发范式。 以个人消费决策为例:当用户考虑购买一款运动手表时,首要的考量因素可能不再是品牌或传统功能,而是它能否接入OpenClaw。这一需求的源头,恰恰也来自OpenClaw本身。例如,当用户让OpenClaw制定并监督健身计划时,每次锻炼后仍需手动输入数据,过程繁琐。若能实现运动手表与OpenClaw的数…

    2026年3月9日
    49400
  • 突破CLIP瓶颈:HiMo-CLIP如何通过语义层级建模实现长文本图像检索SOTA

    在多模态人工智能领域,视觉-语言对齐一直是核心挑战之一。传统的CLIP模型虽然在短文本图像检索上表现出色,但在处理长文本描述时却暴露出明显的局限性:随着文本描述的详细化,模型的匹配分数不升反降,这与人类的认知逻辑背道而驰。最近,中国联通数据科学与人工智能研究院团队在AAAI 2026上发表的研究成果HiMo-CLIP,通过创新的语义层级建模方法,成功解决了这…

    2025年12月1日
    35000
  • Meta裁员风暴背后:AI降本增效的双刃剑与CEO智能体的崛起

    如果说 Meta 去年的关键词是「砸钱抢人」,今年则转向了「为 AI 降本增效」。 前两周,路透社援引知情人士消息称,Meta 正在酝酿大规模裁员,可能影响公司 20% 甚至更多员工。按照 Meta 截至 2025 年底接近 7.9 万人的规模计算,潜在受影响人数可能超过 1.6 万。 近日,《华尔街日报》的一则报道揭示了另一层变化:据知情人士透露,扎克伯格…

    2026年3月23日
    33100
  • AI数学协作新范式:从Erdős问题到形式化验证的Gemini 2.5深度思考实践

    在数学研究的漫长历史中,人类智慧始终是推动学科发展的核心动力。然而,随着人工智能技术的飞速演进,特别是大语言模型在复杂推理领域的突破,数学研究的方法论正在经历一场静默而深刻的变革。近期,围绕著名数学家保罗・厄尔德什(Paul Erdős)遗留问题#367的解决过程,生动展现了AI如何从辅助工具演变为协作伙伴,并催生出“人类提出猜想-AI生成证明-专家优化验证…

    2025年11月23日
    32700