谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

好的,作为专业技术编辑,我已根据您的要求对原文进行了重写。以下是清洗了广告/二维码信息,并保留所有 [[IMAGE_X]] 占位符的 Markdown 格式内容。


一水 发自 凹非寺

TPU 被低估了。

看完谷歌最新发布的第 8 代 TPU,我终于理解了马斯克这句话的含义。

谷歌专为 Agent 时代打造的第 8 代 TPU,其核心亮点在于:

一是,在「训推分离」的道路上,谷歌比英伟达走得更远——直接推出了两款物理上完全不同的芯片。

  • 训练专用芯片 TPU 8t:整体计算性能是上一代产品的近三倍,能将模型训练周期从数月缩短至数周。
  • 推理专用芯片 TPU 8i:在成本不变的情况下,服务能力翻倍。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

二是,能效方面持续发力。采用第四代液冷技术,第 8 代 TPU 的每瓦性能相比上一代提升了近两倍

性能和能耗两大瓶颈的突破,使得 Agent 的大规模落地真正成为可能。此次第 8 代 TPU 发布后,在 𝕏 上引发了广泛讨论:

这才是真正能带来变革的硬件升级。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

市场的反应同样直接。在第 8 代 TPU 亮相发布会后,Alphabet 股价盘中最高涨幅达 2.2%,显示出资本市场对这一方向的初步认可。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

预计这两款芯片将于今年晚些时候正式上市。

Gemini 参与设计,谷歌披露芯片细节

值得注意的是,谷歌第 8 代 TPU 的研发背后还有 Gemini 的参与。尽管谷歌未透露 Gemini 具体参与了哪些环节,但官方博客已明确为其署名(Co-designed)。

凝聚了“人机智慧”的第 8 代 TPU,分别朝着训练和推理两个方向极致优化,并最终诞生了 8t8i 两款芯片。

网友甚至编了个口诀来区分:“横屏用于训练,竖屏用于推理”。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

先看专攻训练的 8t。相较上一代,8t 在“规模、效率、稳定性”三方面实现了全面升级:

  • 规模:单个超级芯片组可扩展至 9600 个芯片 + 2PB 共享高带宽内存,芯片间带宽翻倍,总算力达 121 ExaFlops,支持模型直接运行在统一超大内存池中。
  • 利用率:存储访问速度提升 10 倍,配合 TPUDirect 数据直连,最大限度减少算力空转,最大化资源利用率。
  • 扩展性:基于 Virgo 网络、JAX 与 Pathways,实现近乎线性的扩展能力,单一逻辑集群可延伸至百万级芯片规模。
  • 稳定性:通过实时遥测、自动绕过故障链路(ICI)、光路交换(OCS)等机制,在超大规模部署下仍能维持运行连续性,有效吞吐目标最高可达 97%。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

而专攻推理的 8i,则着眼于低延迟这一核心目标。为此,谷歌几乎从底层将整套推理栈重构:

  • 内存:直面“内存墙”挑战,将 288GB 高带宽内存 + 384MB 片上 SRAM 集成于单芯片(容量是上一代的 3 倍),确保模型的活跃数据尽可能驻留芯片内,减少数据搬运带来的延迟。
  • 系统效率:引入自研的 Axion CPU 架构,将每台服务器的 CPU 主机数量翻倍,并通过 NUMA 进行隔离优化,提升系统协同效率。
  • 模型适配:针对主流的 MoE 混合专家模型,将互连带宽提升至 19.2 Tb/s,并采用新的 Boardfly 架构将网络“路径长度”缩减过半,避免多专家协同时产生性能瓶颈。
  • 延迟控制:新增片上集体加速引擎(CAE),将原本需要跨芯片完成的全局操作搬回芯片内部,整体延迟最高可降至原来的 1/5。

这一系列优化带来了直接效果:每美元性能提升约 80%,在相同成本下,服务能力接近翻倍。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

对于为何决定训推分离,谷歌的逻辑很简单——智能体时代对延迟和吞吐的要求截然不同:训练要“快”,推理要“稳”。实践证明,单一芯片无法同时完美兼顾这两方面。

既然如此,何不尝试分开做?至少在第 8 代 TPU 上,谷歌已经看到了这种分离带来的实际收益。而谷歌敢于走这条分离之路,也离不开其对全栈的掌控能力。

背后是全栈协同优化

一个易被忽视的细节是:此前的 TPU 多搭配通用的第三方 CPU(如英特尔或 AMD 的 x86 架构)。但从这一代开始,TPU 终于与谷歌自研的 CPU(Axion)搭档。这使谷歌能够根据 AI 任务的实际需求,定制 CPU 与 TPU 的协作方式,从而榨取每一瓦电的性能。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

针对 AI 发展最大瓶颈之一的“电力”,谷歌也投入了大量精力。

一方面,优化范围不再局限于芯片本身,而是扩展到整条链路——从 CPU、TPU 到网络,再到整个数据中心,均围绕“省电”重新设计。例如,将网络连接直接嵌入计算芯片,减少节点间的数据搬运。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

再配合统一的电源管理,根据实时负载动态调功,将电力优先分配给最关键的计算环节。

另一方面,数据中心不再是单纯的承载设施,而是与 TPU 协同设计,供电、调度、散热全部重新打磨。结合第四代液冷技术,撑起了原本风冷难以应对的功率密度,使算力在更高能效区间稳定运行。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

这些优化叠加后,效果显著:8t 和 8i 的每瓦性能相比上一代提升了近 2 倍。若放大到数据中心层面,单位电力所能提供的算力,五年间已提升了 6 倍。

更重要的是,谷歌已将这套全栈能力打包给开发者使用。8t 和 8i 原生支持 PyTorch、JAX、vLLM 等主流框架,并提供裸机访问,让开发者直接利用真实硬件性能。配合 MaxText、Tunix 等开源工具,从模型训练到部署的路径也进一步打通。

这也难怪谷歌敢于喊出“面向 Agent 时代的基础设施”这一口号。至少从现有布局来看,其正朝着这一方向推进。

One More Thing

随着谷歌第 8 代 TPU 的发布,网友们也纷纷围观起黄仁勋的“热闹”。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

巧合的是,黄仁勋此前在一档播客中,回应了主持人的犀利提问:

世界上排名前三的 AI 模型中有两个——Claude 和 Gemini,都是在 TPU 上训练的。这对英伟达未来意味着什么?

黄仁勋当时只留下了引人无限遐想的几个字:TPU 没有威胁

在他看来,专为 AI 设计的 TPU 仅在某条赛道取得突破,而英伟达做的是 All。

有大量应用场景是 TPU 无法覆盖的。英伟达把 CUDA 打造成一个出色的张量处理单元,但它也能处理数据处理、计算、AI 等的整个生命周期。我们的市场机会更广,覆盖面更大。因为我们支持世界上所有类型的应用,你可以在任何地方建立英伟达系统,并确信它会有客户需求。这是一个完全不同的概念。

换言之,英伟达出售的从来不是某一颗芯片,而是一整套加速计算体系——从 CUDA 生态,到覆盖 AI、数据处理、科学计算在内的全场景能力。从这个角度看,AI 只是当下其中最热门的一块。

然而,随着 AI 本身开始吞噬越来越多的算力需求,TPU 的重要性似乎正在被重新评估。至少,马斯克已经表明了自己的态度。

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速

参考链接:
[1]https://x.com/Google/status/2046993420841865508
[2]https://x.com/koraykv/status/2047019069594116515
[3]https://www.bloomberg.com/news/articles/2026-04-22/google-cloud-releases-new-tpu-chip-lineup-in-bid-to-speed-up-ai?embedded-checkout=true

第8代TPU发布:训推分离芯片性能飙升,Agent时代加速

在“龙虾”概念爆火、带动一波Agent与衍生产品浪潮之后,市场情绪虽受短期热点牵引,但真正具备长期价值的AI公司与产品,或许不止于此。

若你正身处于、或见证着这些技术与商业的深层变革,欢迎申报分享。
让更多人看见你的实践与洞察。
👉 申报入口

谷歌第8代TPU发布:训推分离芯片,性能飙升,Agent时代加速


一键关注 👇 点亮星标
科技前沿进展,每日触达


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/31677

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • FGN技术革命:谷歌DeepMind WeatherNext 2如何重塑小时级气象预报新范式

    气象预报领域正迎来一场由人工智能驱动的深刻变革。谷歌DeepMind最新发布的WeatherNext 2系统,不仅将预报精度提升至小时级别,更通过创新的功能生成网络(FGN)技术,实现了对天气演变的多情景概率预测,标志着传统数值预报方法向智能化、实时化方向迈出了关键一步。 传统气象预报主要依赖基于物理方程组的数值天气预报模型,这些模型需要在超级计算机上运行数…

    2025年11月18日
    33800
  • 2025年智能体框架格局:从协同作战到产业落地的全景透视

    2025年智能体框架已从技术概念演进为驱动各行业的基础生产力工具,其核心在于通过多元架构与协同生态实现复杂任务的自主化与智能化。

    2025年10月15日
    65401
  • Anthropic CEO怒撕OpenAI:安全作秀骗全世界,Claude遭美政府全面封禁

    Claude被美国政府全面封禁后,达里奥·阿莫代伊撰写了一份被外界称为硅谷“最疯狂”的内部备忘录。他在备忘录中直指,OpenAI与五角大楼的交易纯粹是一场“安全作秀”(Safety theater)。 “他们就是做做样子,想要骗过全世界的人。” | —|— 阿莫代伊还表示,美国政府看Anthropic不顺眼,主要原因在于他们不愿迎合当…

    2026年3月5日
    41900
  • VANS模型:从文本到视频的AI推理革命,开启“视频即答案”新纪元

    在人工智能技术日新月异的今天,我们正见证着AI从单纯的信息处理工具向具备深度感知与创造性输出能力的智能体演进。传统AI模型在面对用户查询时,往往局限于生成文本答案,这种交互方式在解释复杂动态过程或视觉化场景时显得力不从心。例如,当用户询问“如何打温莎结”时,文字描述难以精确传达手指的缠绕顺序和力度变化;而面对“电影主角下一秒会做什么”的开放式问题,静态的文字…

    2025年11月22日
    28400
  • 谷歌Veo 3.1震撼发布,全面迎战Sora 2:AI视频的“专业级”战争正式打响

    2025年10月16日,谷歌发布AI视频生成模型Veo 3.1,正面迎战OpenAI的Sora 2。新版本主打电影级画质、原生音频同步、精准对象编辑与首尾帧插值,支持最长148秒视频生成,全面接入Flow、Gemini API与Vertex AI平台。与Sora 2的“生活化、社交化”路线不同,Veo 3.1定位专业创作与商业应用,标志着AI视频生成进入可控、可编辑、可商用的工业化阶段。

    2025年10月16日
    1.7K01