2026,黄仁勋开年第一讲来了!
5个小时前,英伟达创始人黄仁勋现身拉斯维加斯的CES 2026现场。3000名观众坐满礼堂,庭院里还有2000人在观看;全球数百万人通过直播欣赏这场新年技术盛宴。
这是我们今年的第一场主题演讲,我们得先把“蜘蛛网”清理掉。
黄仁勋的演讲长达90分钟,用他自己的话说,今天要“塞进去”的内容大概有15公斤那么多。
他首先开门见山,点出了两个同时发生的平台级革命:
一方面,应用不再只是软件,而是建立在AI之上的全新智能系统——每一行代码、每一个像素、每一个token,都可能是实时生成的。
另一方面,软件开发彻底颠覆:你不再“编程”,而是“训练”;不再跑在CPU上,而是跑在GPU上。
黄仁勋指出,这意味着过去十年价值10万亿美元的计算体系正在升级,数千亿美元资金正在涌入。人工智能、物理AI、开放模型——这些技术正在重塑每一个行业。
随后,他对2025年进行了总结,概括为四个关键词:规模定律(Scaling Law)、智能体(Agentic)系统、物理AI、开放模型。在切换PPT时出现了一点小故障,他自嘲道:“这就是没有彩排的后果。”
开放模型同样达到了前沿水平。虽然它们依然比最前沿模型落后大约六个月,但每隔六个月,就会有一个新的模型出现,而这些模型正变得越来越聪明。
随后,演讲的关键词开始收敛:AI超级计算机、开源模型、智能体应用、物理AI。这四个关键词串联起来,勾勒出英伟达的全栈AI战略。

围绕这四个方面,黄仁勋发布了英伟达的重磅新品:
- 最重磅的是Rubin计算架构与平台:集成Vera CPU、Rubin GPU、NVLink互连和BlueField-4 DPU,形成可扩展的“AI工厂”,包括NVL72(72 GPU+36 CPU,1 ExaFLOPS)和NVL288超大集群,支持长上下文推理,为智能体AI提供长序列处理能力。
- 生成式AI与开放生态:发布Nemotron 3系列开源模型,提供Llama衍生模型和覆盖140多种语言的Nemotron-CC数据集,以及Granary企业级微调集。同时,将Isaac、GR00T等机器人模型接入Hugging Face平台,连接200万开发者与1300万AI创作者生态。
- 物理AI成为全场焦点:推出Cosmos 2.5世界模型、Cosmos Reason 2推理模型,以及Isaac GR00T N1.6类人机器人控制模型,并配套Isaac Lab Arena评测与OSMO云训练框架,旨在将机器人研发流程“一键化”。
- 自动驾驶领域单独突破:Alpamayo 1成为首个具备思考和长尾推理能力的100亿参数视觉语言动作(VLA)模型,作为云端教师生成安全驾驶逻辑,结合1700小时数据集与AlpaSim仿真引擎,已在2026款奔驰CLA上落地,未来有望支持L3/L4自动驾驶。
- 边缘计算扩展AI边界:Jetson T4000与IGX Thor工业边缘计算机,让无人机、物流机器人、工业设备等都能拥有强大的本地AI能力,实现从云端到边缘、从算力到物理行动的全链路布局。
总之,在英伟达的版图中,显卡算力已不再是唯一。黄仁勋不止一次公开表示他的野望:从前沿的算力架构、AI超算,到庞大的开源模型生态,再到多模态AI应用、物理AI、边缘计算等未来的AI应用,英伟达全都要!
AI不再停留在屏幕里,而是直接参与芯片设计、工厂仿真和机器人操作。
未来的算力,不仅要更快、更强,还要极致高效、无缝协作——AI的下一个前沿,已经来了。
面向未来的算力、计算、AI、应用与世界!构建所有这些的挑战与英伟达的解决方案,都浓缩在这90分钟的演讲中。
(值得一提的是,黄仁勋在演讲中提前透露了对马斯克下一代Grok模型参数的猜测:他认为将是7万亿,而非10万亿。)
两个平台级的革命
大家好,拉斯维加斯。新年快乐。欢迎来到CES。
大约每隔10到15年,计算机产业就会发生一次重置,一次新的平台级变革。从大型机到PC,从PC到互联网,从互联网到云,从云到移动。每一次,应用世界都会转向一个新的平台。
但这一次不一样。这一次,事实上有两个平台级变革在同时发生。
首先,当我们迈向AI的时候,应用将构建在AI之上。最开始,人们以为AI本身就是应用。事实上,AI的确是应用。但你将会在AI之上,再去构建应用。
与此同时,软件如何运行、如何开发,也发生了根本性的变化。整个计算机产业的基础技术栈,正在被重新发明。你不再是“编程”软件,而是“训练”软件;你不再把软件跑在CPU上,而是跑在GPU上。
过去,应用是预先录制、预先编译,然后在设备上运行的;而现在,应用能够理解上下文,每一次都会从零开始生成——生成每一个像素、每一个token,都是实时生成的。
正是因为加速计算,因为人工智能,计算本身被从根本上重塑了。那个“五层蛋糕”的每一层,如今都在被重新发明。
这意味着过去十年里,大约10万亿美元规模的计算体系正在被现代化,转向这种全新的计算方式。这也意味着,每年有数千亿美元规模的风险投资资金正在涌入,用来现代化和发明这个新世界。这还意味着,一个100万亿美元规模的产业体系,其中数个百分点的研发预算,正在向人工智能迁移。
很多人会问:钱从哪里来?钱就是从这里来的——从传统计算向AI的现代化转型,从经典方法向人工智能方法迁移研发预算。
巨额的投资正在涌入这个行业,这也解释了为什么我们会这么忙。而过去这一年,也完全不例外。
2025年的四个关键词
过去这一年,真的不可思议。——马上会有一张幻灯片出来。这就是不彩排的后果(笑)。
这是今年的第一场主题演讲,我希望也是你们今年的第一场。否则,你们这一年可能已经相当忙了。这是我们今年的第一场主题演讲,我们得先把“蜘蛛网”清理掉。

2025年是一个不可思议的年份。感觉好像所有事情都在同一时间发生,而事实上,可能确实如此。
第一件事,当然是规模定律(scaling law)。
2015年,我第一次觉得真正会产生巨大影响的语言模型出现了,它叫BERT。2017年,Transformer出现了。但直到五年之后,也就是2022年,“ChatGPT时刻”才真正发生,它唤醒了整个世界,让大家意识到人工智能的可能性。
而在那之后一年,又发生了一件非常重要的事情。ChatGPT的第一个01模型,第一个推理模型,彻底改变了格局。它提出了一个全新的概念,叫测试时扩展(test-time scaling)。这其实是一个非常符合常识的想法。
人工智能的演进需要海量计算资源,而计算定律仍在持续扩展。模型不仅通过预训练学习,还通过强化学习进行后训练以掌握技能。如今,我们更进入了测试时扩展阶段——即模型能够进行实时“思考”。
与此同时,另一项突破在2024年发生。具备推理能力的Agentic系统于2025年开始出现并迅速普及。这些系统能够查找信息、开展研究、使用工具、规划未来并模拟结果,从而开始解决至关重要的问题。
以Cursor为例,它彻底改变了英伟达内部的软件开发方式。这标志着Agentic系统将进入高速发展期。
当然,人工智能不止于此。大语言模型并非信息的唯一形态。只要宇宙中存在具有结构的信息,我们就能训练一种“语言模型”去理解其表示方式并将其转化为AI。 其中最为关键的一类,便是理解自然规律的物理AI。
进一步而言,物理AI包含两个层面:一是与现实世界交互的AI;二是世界本身所编码的信息,即AI Physics。因此,该体系既包含与物理世界交互的AI,也包含理解物理定律的AI。
去年发生的另一件要事是开放模型的重大进展。当开源与开放创新在全球每个公司、每个行业中被激活时,AI将无处不在已成为共识。开放模型在去年真正实现了腾飞。
例如,DeepSeek R1作为首个开放的推理模型出现,震惊世界并几乎点燃了一场运动。如今,各类开放模型系统已遍布全球。开放模型同样达到了前沿水平。尽管它们仍比最顶尖的模型落后约六个月,但每隔六个月就有更聪明的新模型出现。
这导致了模型下载量的爆炸式增长。初创公司、大型企业、研究人员、学生乃至几乎每个国家,都希望参与这场AI革命。如果数字智能形态会将任何人抛在后面,那显然是不合理的。因此,开放模型在去年重塑了人工智能,并将重塑整个行业。
英伟达的开放模型实践
我们早已预见到这一趋势。数年前,我们便开始构建并运营自用的AI超级计算机,即DGX Cloud。许多人疑问我们是否要进军云计算业务,答案是否定的。我们构建这些DGX超级计算机是供自己使用。目前,我们正运营着价值数十亿美元的超级计算系统,以开发我们的开放模型。
我们为此感到无比自豪。这些工作已在全球各行各业引起广泛关注,因为我们在众多领域进行着前沿AI模型的研究:
- 蛋白质与数字生物学:
- LaProtein:用于合成与生成蛋白质。
- OpenFold 3:用于理解蛋白质结构。
- EVO 2:用于理解并生成多个蛋白质,这是细胞级表示的开端。
- Earth-2 AI:一个理解物理定律的系统。我们在ForecastNet及CorrDiff上的工作,彻底改变了天气预测方式。
- NeMoTron:首个混合Transformer与SSM的模型,速度极快,既能进行长时间思考,也能高速推理。NeMoTron 3是一项突破性成果,未来将有更多版本。
- Cosmos:一个理解世界运作方式的前沿开放世界基础模型。
- Groot:一个涵盖关节控制、机动性与运动能力的类人机器人系统。
这些模型与技术正被整合,并且在每个案例中,都向全世界开放。前沿的人形智能与机器人模型对全球开放。
今天,我们还将简要介绍Alpamayo,即我们在自动驾驶领域的工作。我们不仅开源了模型,还开源了训练这些模型所使用的数据。唯有如此,才能真正信任模型的训练过程。
我们开源了所有模型以支持二次开发,并提供一整套称为NeMo库的工具,包括Physics NeMo库、Clara NeMo库、生物NeMo库。每个库都是一个AI全生命周期管理系统,涵盖数据处理、生成、模型训练、构建、评估、安全护栏设置直至部署。

每个库都极其复杂,而这一切全部开源。
因此,基于此平台,英伟达已成为前沿AI模型的构建者。我们采用了一种特殊的方式——完全在开放环境中进行构建,以确保每家公司、每个行业、每个国家都能参与这场AI革命。
我们对此深感自豪。从行业贡献图表来看,我们的贡献无出其右,并且我们将持续甚至加速这一进程。
这些模型本身也是世界级的。
(现场出现技术故障,屏幕黑屏。演讲者幽默应对后,继续即兴发挥。)


因此,这些模型不仅具备前沿能力、完全开放,而且在各类排行榜上名列前茅。这是我们非常自豪的领域。
我们拥有一些非常重要的模型,能够理解多模态文档,即通常所说的PDF。世界上大量高价值内容被封存在PDF中,只有借助AI才能真正理解其内容。因此,我们的PDF检索器与解析器都是世界级的。

我们的语音识别模型是世界级的。我们的检索模型——本质上是现代AI时代的搜索引擎与数据库引擎(语义搜索、AI搜索)——也是世界级的。
我们持续占据排行榜榜首,为此我们深感自豪。
Agentic应用的模样
所有这一切的最终目的,是赋能你构建AI Agent。这是一个真正突破性的方向。回想ChatGPT初现时,人们惊叹于其生成能力,但也为其严重的“幻觉”问题所困扰。
它产生“幻觉”是因为它能记住过去的一切,却无法知晓未来或当下正在发生的事。因此,它需要被锚定在研究之中。在回答问题前,它必须先进行基础研究。
它需要具备推理能力:我是否需要研究?是否需要使用工具?如何将问题拆解为步骤?
如今,AI模型已掌握这些能力。当这些能力被组合,便能形成一系列行动,去完成一件它从未做过、也未被专门训练过的事情。
这正是推理能力的奇妙之处:我们能遇到全新情境,并将其拆解为已理解的知识或规则。因此,AI模型如今具备推理能力,是一件极其强大的事。
Agent 的推理能力,为无数应用开启了大门。我们不再需要从一开始就训练一个无所不知的AI。正如人类并非生来全知,AI也应在任何情境下,都能推理出解决问题的方法。
大型语言模型已经实现了这一根本性跃迁。通过强化学习、思维链、搜索、规划等一系列技术,我们获得了这种基础能力,并且这些能力如今已完全开源。
但更令人振奋的是另一个突破。我第一次看到它是在 Aravind 的 Perplexity 上。这家极具创新力的AI搜索公司,展示了同时使用多个模型的卓越思路。这无疑是天才之举:在推理链的任何阶段,AI都应能调用全球最优秀的模型来辅助解决问题。
这正是AI本质上是多模态的原因——它能理解语音、图像、文本、视频、3D图形乃至蛋白质结构。同时,它也是多模型的,能够根据任务需求选用最合适的模型。
它在定义上也是多云的,因为AI模型分布在不同位置。它还是混合云的:无论是企业应用、机器人还是医疗设备,计算可能发生在边缘、基站旁、企业内部或医院内,以满足数据实时、就地处理的需求。
无论形态如何,我们已经清晰地看到:这就是未来AI应用的样子。
未来AI应用的构建框架
换言之,未来的应用将构建在AI之上。这就是其基本框架。我所描述的 Agentic AI 基础架构——具备多模型能力、能完成复杂任务的结构——已经极大地加速了各类AI创业公司的发展。
同时,得益于大量开放模型和工具,你现在可以定制专属的AI,教授它独一无二的技能。这正是我们通过 NeMoTron、NeMo 及所有开放模型工作所追求的目标:在前端设置一个智能路由器。这个路由器作为管理者,会根据用户提示的意图,决定由哪个模型来执行任务,选择最适合解决问题的模型。
在这样的架构下,你将拥有一个怎样的AI?
一方面,它是高度可定制的。你可以向其灌输公司的独有技能、行业机密或深度领域知识,或许你正掌握着训练所需的所有数据。
另一方面,你的AI在定义上始终处于前沿。它既高度定制,又保持先进,并且能做到“开箱即用”。
因此,我们决定用一个简单示例,将这套能力交到大家手中。我们将这一整套框架称为 Blueprint(蓝图)。这些蓝图已被集成到全球各地的企业级SaaS平台中,我们对目前的进展感到非常欣喜。
接下来,我们展示一个任何人都能完成的小例子。(以下是现场演示。)
我们来构建一个个人助理。
我希望它能管理日历、邮件、待办事项,甚至照看家庭。我使用 Brev,将我的 DGX Spark 转变为个人云。这样,无论使用云端GPU还是DGX Spark,我都能通过同一套接口操作。

通过前沿模型的API,可以轻松开始。我希望助理处理邮件,因此为Agent创建了一个可调用的邮件工具。

为确保邮件私密性,我添加了一个在Spark本地运行的开放模型。
对于任何任务,我都希望Agent使用最合适的模型。于是我采用一个基于意图的模型路由器。这样,涉及邮件的提示在本地Spark处理,其他任务则可调用前沿模型。
我希望助理能与现实世界交互,因此将其连接到Hugging Face的 Reachy Mini 机器人。我的Agent通过工具调用,控制Reachy的头部、耳朵和摄像头。
我还想为Reachy添加语音。我接入了 ElevenLabs 的API。
现场演示:
——你好,我是运行在DGX Spark上的Richi。
——嘿Richi,我今天有什么待办事项?
——你今天的待办事项是:购买杂货——鸡蛋、牛奶、黄油;给Jensen发送新脚本。
——好的,给Jensen发个更新,告诉他我们今天结束前会处理。
——没问题。
——Richi,这里有一张草图,你能把它变成建筑渲染图吗?
——当然可以。
——不错。现在再制作一个视频,带我环视房间。
——请看。
通过Brev,我可以分享Spark和Reachy的访问权限,于是我将其分享给了Anna。
——嘿Richi,Potato在做什么?
——它在沙发上。我记得你不喜欢这样,我会让它下来。
——Potato,从沙发上下来。

随着开源生态的巨大进展,如今能够构建出这样的应用,确实令人难以置信。我无比期待看到大家的创造。
这一切的核心在于:构建过程已变得极其简单。而在几年前,这还完全无法想象。
这种基本框架——利用预训练的前沿语言模型与定制化模型,将其置于 Agentic 推理框架中,使其能够访问工具、文件乃至其他Agent——本质上就是现代AI应用的架构,也是现代意义上的应用架构。
我们构建这类应用的速度已变得极快。你会发现,即使面对从未见过的信息或未经精确训练的任务结构,它依然能够推理,尽力理解数据,并尝试找到解决方法。
这,就是人工智能。
如今,这一整套框架已被集成到实际产品中。我们很荣幸与全球一些领先的企业级平台公司合作,例如:
- Palantir:其整个AI与数据处理平台现均由NVIDIA加速;
- ServiceNow:全球领先的客户服务与员工服务平台;
- Snowflake:顶级的云端数据平台,其上的工作成果令人瞩目;
- CodeRabbit:我们在NVIDIA内部大量使用该工具;
- CrowdStrike:正在构建用于检测和发现AI威胁的AI系统;
- NetApp:其数据平台之上,现已叠加NVIDIA的语义AI与Agentic系统,用于客户服务。
但最关键的是:这不仅是开发应用的新方式,更将成为你平台的用户界面。
无论是Palantir、ServiceNow、Snowflake还是其他合作公司,Agentic 系统本身就是界面。它不再只是填格子的表格或命令行。所有多模态信息交互如今都成为可能,而你与平台的交互方式也变得更为简单,如同与人交谈。
这,就是Agentic系统如何重塑企业级AI。
「物理AI」的构建,需要三台计算机
接下来是 物理AI。这是一个我已讲述多年的方向,事实上我们已在此领域深耕 八年。
核心问题在于:如何将仅存在于计算机内部、通过屏幕和扬声器交互的智能,转变为能与现实世界交互的智能?
这意味着,AI 必须理解世界如何运作的常识:
物体恒存性 —— 我转过头再看回来,那个物体还在那里;
因果关系 —— 如果我推它,它就会倒下。
它需要理解摩擦力和重力,理解惯性。一辆重型卡车在公路上行驶时,需要更长的时间才能停下来;一个球会继续滚动。这些观念对哪怕一个小孩子来说都是常识,但对 AI 而言,却是完全未知的领域。
因此,我们必须构建一个系统,使 AI 能够学习物理世界的常识与规律。同时,它也必须能从数据中学习,而这些数据本身非常稀缺。此外,我们还必须能够评估这个 AI 是否真的在工作。
这意味着,AI 必须能够在一个环境中进行模拟。如果 AI 没有能力去模拟物理世界对其自身行为所产生的反馈,它又如何知道自己正在执行的动作是否符合预期?
对其行为结果的响应进行模拟是至关重要的,否则根本无法进行评估。因为现实世界中的每一次情况都不同。因此,这样一个基础系统需要三台计算机。
第一台,是我们熟知的、用于训练 AI 模型的计算机。
第二台,是用于推理的计算机,它本质上是一台机器人计算机,运行在汽车、机器人、工厂或任何边缘场景中,对模型进行推理。
但还必须有第三台计算机,它是专门为模拟而设计的。而“模拟”几乎处在 NVIDIA 所做的一切事情的核心,构成了我们所有物理 AI 工作的基础。
因此,我们有三台计算机,以及运行在其上的多层软件栈,这些库使它们变得真正有用。

Omniverse 是我们的数字孪生世界,一个基于物理的模拟环境。
Cosmos,如我之前提到的,是我们的基础模型——但它不是语言的基础模型,而是“世界”的基础模型,同时也与语言对齐。
你可以对它提问:“球正在发生什么?”它会回答:“球正在沿着街道滚动。”
这是一个世界基础模型;此外,当然还有机器人模型。我们有两个,一个叫 Groot,另一个叫 Alpamayo,我稍后会介绍。
在物理 AI 中,我们必须完成的最重要任务之一,是在一开始就创造用于训练 AI 的数据。这些数据从哪里来?语言模型之所以可行,是因为我们创造了大量被认为是“真实标注”的文本供 AI 学习。
那么,我们如何教 AI 物理学中的“真实世界”?
虽然有大量的视频,但远不足以覆盖我们所需的那种多样性和交互类型。

正是在这里,一些伟大的思想汇聚在一起,把过去的“算力”转化成了“数据”。
现在,通过以物理定律为基础、以真实世界为约束的合成数据生成,我们可以有选择地、智能地生成数据,再用这些数据来训练 AI。
举个例子:
输入到 Cosmos 世界模型中的,可以是一个交通模拟器的输出。但单靠这个模拟器,远不足以让 AI 学会所需的一切。我们可以把它送入 Cosmos 基础模型,生成基于物理、且在物理上可信的环绕视频,AI 现在就可以从中学习了。
这样的例子有很多。让我向你展示 Cosmos 能做什么。
物理 AI 的 “ChatGPT 时刻” 几乎已经到来,但挑战也同样清晰。物理世界是多样的、不可预测的。收集真实世界的训练数据既缓慢又昂贵,而且永远不够。答案是:合成数据。
这一切始于 NVIDIA Cosmos,一个开放的、前沿的世界基础模型,专为物理 AI 打造。它在互联网规模的视频、真实驾驶和机器人数据、以及 3D 模拟上进行了预训练。

Cosmos 学习到了一种统一的世界表征,能够对齐语言、图像、3D 和动作。它可以从单张图像中完成物理 AI 的核心能力:生成、推理,以及轨迹预测。
Cosmos 可以从 3D 场景描述中生成逼真的视频;
从驾驶遥测和传感器日志中生成物理上连贯的运动;
从规划模拟器中生成环绕视频;
生成多摄像头环境,或者直接从场景提示中生成。
它让边缘案例“活”了起来。开发者可以在 Cosmos 中运行交互式的闭环模拟。当动作发生时,世界会做出回应。

Cosmos 会进行推理。
它分析极端场景,将其拆解为熟悉的物理交互,并推理接下来可能发生的事情。
Cosmos 将算力转化为数据,训练自动驾驶系统应对长尾问题,并教会机器人在任何场景下进行适应。
我知道,这听起来很不可思议。Cosmos 是全球领先的基础模型,是一个真正的“世界基础模型”。它已经被下载了数百万次,在全球范围内被广泛使用,正在让整个世界为这个全新的“物理 AI 时代”做好准备。我们自己也在使用它,用于打造自动驾驶汽车、场景生成和评估。借助它,我们可以在计算机内部“行驶”数十亿、数万亿英里的里程,并且已经取得了巨大的进展。

自动驾驶AI: Alpamayo,首次具备思考和长尾推理能力
今天,我们宣布推出 Alpamayo,这是世界上第一个具备“思考与推理能力”的自动驾驶 AI。Alpamayo 是端到端训练的,真正意义上的端到端:从摄像头输入,到执行器输出。它使用了大量由人类驾驶员驾驶的真实里程数据,也使用了大量由 Cosmos 生成的合成里程数据。除此之外,还有数十万个被极其精细标注的样本,用来教会这辆车如何驾驶。

Alpamayo 有一个非常特别的地方。它不仅仅是接收传感器输入,然后控制方向盘、刹车和加速,它还会对自己即将采取的行为进行推理。它会告诉你它将要采取什么行动,解释为什么会做出这个决定,以及对应的行驶轨迹。这些能力是高度耦合的,并且通过大量人类示范数据和 Cosmos 生成数据的组合进行非常有针对性的训练。
最终的效果令人难以置信。这辆车不仅会像你所期望的那样驾驶,而且驾驶得非常自然,因为它是直接从人类示范中学习的;同时,在每一个具体场景中,它都会进行推理:当遇到一个场景时,它会告诉你它打算做什么,并解释它为什么要这么做。
这之所以如此重要,是因为驾驶存在着极其庞大的“长尾问题”。我们不可能收集到在每一个国家、每一种环境、每一种条件下、对所有人群来说、可能发生的每一个场景的数据。然而,非常重要的一点是:如果把这些场景拆解成许多更小的子场景,它们其实对人类来说都是非常常见、非常容易理解的情况。这些长尾场景可以被分解为一系列“正常情况”,而车辆已经知道如何应对这些情况,它只需要对当前情境进行推理即可。

现在,让我们来看一看。你即将看到的一切都是一次完成的,全程无需接管。正在规划前往目的地的路线,系好安全带。

你已到达目的地。
我们在八年前开始从事自动驾驶汽车的研发。原因在于,我们很早就意识到,深度学习和人工智能将会重塑整个计算栈。
如果我们真的想要理解如何完成导航,如何引导整个行业走向这个全新的未来,我们就必须擅长于构建完整的技术栈。
正如我之前提到的,AI 是一个“五层蛋糕”。最底层是电力、土地和机房。在机器人领域,最底层就是车本身。再往上一层是芯片层,包括 GPU、网络芯片、CPU 等等。再往上一层是基础设施层,在物理 AI 的场景中,这一层就是 Omniverse 和 Cosmos。再往上是模型层,而我刚才给你们展示的这个模型,叫做 Alpamayo。

今天,Alpamayo 已经开源了。这是一项极其庞大的工程成果,背后投入了数千人。仅我们的自动驾驶团队,就有几千人。为了给大家一个参照,我们的合作伙伴之一梅赛德斯-奔驰在五年前就与我们达成合作,共同推进这一切成为现实。

我们设想,未来道路上会有 十亿辆汽车 都具备自动驾驶能力。你可以把它作为机器人出租车,由某个平台统一调度和出租;也可以自己拥有一辆,它可以自己驾驶;当然,你也可以选择亲自驾驶。但无论如何,每一辆车都会具备自动驾驶能力,每一辆车都会由 AI 驱动。
在这个体系中,模型层是 AlphaMayo,而其上层的应用层则由梅赛德斯-奔驰承载。这意味着英伟达首次真正意义上完成了从底层到顶层的完整技术栈构建。
我们为此已筹备良久,并非常高兴地宣布,英伟达的首款自动驾驶汽车将于第一季度正式上路。具体规划为:美国市场在第一季度,欧洲在第二季度,亚洲市场预计在第三和第四季度。更重要的是,我们将持续通过 AlphaMayo 的新版本及后续迭代对系统进行升级。

如今,我毫不怀疑这将成为全球规模最大的机器人产业之一。我们也非常庆幸亲自投身其中,因为这一实践让我们深刻理解了:应如何帮助世界构建机器人系统。只有亲身实践,构建完整的基础设施,才能真正洞悉机器人系统需要怎样的芯片。在此案例中,当前采用的是双 Orin 配置,下一代将升级为双 Thor。这些处理器专为机器人系统设计,旨在实现最高等级的安全能力。
该车辆已完成安全评级并进入量产阶段。梅赛德斯-奔驰 CLA 车型刚刚通过了 NCAP 评级,获评全球最安全的汽车。据我所知,这是唯一一个从芯片、系统到每一行代码均完成全面安全认证的自动驾驶系统。整个模型系统基于多样化、冗余的传感器体系构建,自动驾驶软件栈本身也遵循同样的原则。

L4 自动驾驶如何实现极致安全:双重系统保障
AlphaMayo 系统经过端到端训练,能力极为强大。但现实是,在经历无限时长的真实驾驶验证之前,无人能百分之百确信其绝对安全。因此,我们的解决方案是在其底层额外部署一整套完整的自动驾驶软件栈,作为额外的安全护栏,起到兜底作用。
这套完整的自动驾驶软件栈是完全可追溯的,我们花费了大约五年——实际上是六到七年的时间,才将第二套软件栈真正构建完成。这两套软件系统彼此镜像、相互对照运行。此外,我们还配备了一套策略与安全评估器,用于判断:在当前驾驶场景下,系统是否具备足够高的置信度,能够安全地进行推理和驾驶。
如果答案是肯定的,则由 AlphaMayo 系统执行驾驶任务;如果遇到系统把握不足的场景,经安全与策略评估器判定需要回退至一个更简单、更安全的护栏系统,系统便会切换至传统的自动驾驶软件栈。

我们是全球唯一同时运行这两套自动驾驶系统的汽车,而所有安全系统都必须具备多样性和冗余性。
我们的愿景是:未来每一辆汽车、每一辆卡车都将实现自动驾驶。我们已为此目标奋斗多年。这整套技术栈是垂直整合的。当然,在梅赛德斯-奔驰的合作案例中,我们共同构建了整个系统。我们负责车辆部署、软件栈的运行,并在其全生命周期内进行维护。然而,正如英伟达一贯的做法,我们在打造完整技术栈的同时,会向整个生态系统开放。围绕 L4 自动驾驶和机器人出租车,与我们合作的生态伙伴正在全球范围内不断扩展。
我完全可以预见——事实上这已成为我们的一项巨大业务。其规模之所以庞大,是因为客户利用我们的平台进行训练、处理训练数据、训练自有模型;部分场景下,客户用它来生成合成数据;一些车企或公司主要使用我们车内的计算机和芯片;另一些则选择与我们进行全栈合作,或仅采用部分技术。因此,客户具体使用多少并不重要。我唯一的建议是:只要有可能,就尽可能多地利用视频数据。无论如何,整个系统都是开放的。
这将成为第一个大规模、主流化的物理 AI 市场。我相信在座各位都会认同,我们正处在一个关键拐点——从“非自动驾驶”向“自动驾驶”过渡。这一转变很可能在未来十年内发生。我相当确信,全球将有极高比例的汽车实现自动驾驶或高度自动驾驶。
英伟达的机器人全景
而我刚才描述的这套基础技术路径——三台计算机、合成数据生成以及仿真——并不仅限于汽车领域,它适用于所有类型的机器人系统。无论是简单的机械臂、操作型机器人、移动机器人,还是完整的人形机器人,均可应用。因此,机器人的下一段旅程、下一个时代,就是“机器人时代”。这些机器人将以各种不同的形态和尺寸出现。
(现场演示环节略)

(机器人展示与介绍略)

这就是下一个篇章。未来我们将花费大量时间探讨机器人,但最终,重点不只在于机器人本身。我知道一切似乎都围绕着它们,但真正关键的是如何实现这一目标。而在所有将被物理 AI 和 AI 物理彻底重塑的行业中,有一个行业对英伟达而言意义最为特殊——它是我们一切的起点。
英伟达机器人供应链揭秘:西门子已集成 CUDA
如果没有接下来要提到的这些公司,这一切都不可能实现。我非常高兴地看到,从 Cadence 开始,他们正在加速这一进程。Cadence 已将 CUDA-X 集成到其所有的仿真和求解器中。他们正在使用英伟达的物理 AI 技术,应用于不同类型的物理工厂及工厂级仿真。AI 物理正被全面集成进这些系统。无论是 EDA、STA,还是未来的机器人系统,我们都会看到:当初使这一切成为可能的技术,将彻底重塑整个设计技术栈。
Synopsys——众所周知,在芯片设计领域,Synopsys 和 Cadence 是完全不可或缺的。Synopsys 在逻辑设计和 IP 领域处于领先地位;Cadence 则主导物理设计、布局布线,以及仿真和验证,尤其在仿真与验证方面实力强大。如今,这两家公司都正在迈向系统级设计和系统级仿真的新时代。


未来,我们将在 Cadence 和 Synopsys 的工具内设计芯片,并在这些平台中对整个系统进行仿真和模拟。这就是未来。机器人将“诞生”于这些平台之中,这很神奇,不是吗?因此,我们非常高兴能与这些产业伙伴合作。正如我们将英伟达技术集成到 Palantir 和 ServiceNow 一样,我们正将英伟达引入计算密集型仿真产业——Synopsys 和 Cadence。
今天我们还宣布,Siemens 也在进行同样的整合。我们将把 CUDA-X、物理 AI、智能 AI、Neo、Neimotron 深度集成到 Siemens 的生态世界中。

原因很简单:首先,我们设计芯片,未来一切都将由英伟达加速,你会对此感到满意。我们将与智能芯片设计师和系统设计师合作,共同推进设计工作,就像如今智能软件工程师正在帮助我们的软件工程师进行编码一样。
物理AI的突破正在推动人工智能从数字屏幕走向真实的物理世界,这一进程恰逢全球范围内对芯片、计算机、关键药物和AI工厂的集中建设期。随着全球劳动力短缺问题日益凸显,由物理AI和机器人驱动的自动化变得比以往任何时候都都更为关键。
这正是AI与全球最大规模实体产业交汇的节点,也是NVIDIA与西门子建立合作的基础。在近两百年的历史中,西门子构建了全球工业体系,如今,它正致力于为AI时代重塑这些产业。西门子正在将其电子设计自动化(EDA)、计算机辅助工程(CAE)以及数字孪生工具和平台,与NVIDIA的CUDA-X库、AI模型及Omniverse平台进行深度集成。
双方的合作旨在将物理AI融入完整的工业生命周期——从设计、仿真到生产与运营。我们正站在一场新工业革命的起点,由NVIDIA和西门子共同构建的物理AI,将引领下一个工业时代。
开源模型将成为最大群体
观察全球的AI模型生态,OpenAI无疑是当前领先的Token生成器。然而,规模第二大的群体很可能就是开源模型。可以预见,随着时间的推移,由于参与的公司、研究者数量庞大,且覆盖的领域与模态日益广泛,开源模型有望发展成为最大的模型群体。

Rubin架构闪亮登场
现在,让我们将目光投向一个特别的名字:Vera Rubin。这位美国天文学家首次观测到星系边缘的旋转速度与中心几乎一致。

这一现象违背了牛顿物理学的经典预期。在太阳系中,距离太阳更远的行星公转速度更慢。因此,除非存在一种我们看不见但占据空间的物质——“暗物质”,否则此现象无法解释。
为此,我们将下一代计算平台命名为“Vera Rubin”。该架构的诞生,正是为了应对AI发展所面临的根本性挑战。
AI所需的计算量正在急剧攀升,对NVIDIA GPU的需求也随之暴涨,核心原因在于模型规模正以每年十倍的速度增长。

此外,正如之前提到的,GPT-01的推出标志着AI的一个拐点:推理不再是一次性的答案生成,而是一个持续的“思考”过程。为了教会AI如何思考,强化学习被引入,并在后训练阶段投入海量计算。这不再是简单的监督微调或模仿学习,而是让计算机通过大量试错迭代,自主学习完成任务。
其结果是,预训练、后训练以及推理时的计算规模均呈爆炸式增长。如今,每次推理我们都能观察到AI的思考链条,通常思考时间越长,输出的答案质量越高。因此,推理侧的扩展导致每年生成的Token数量增长五倍。
与此同时,激烈的AI竞赛正在进行,所有参与者都在竞逐下一个性能前沿。每当新的前沿被突破,上一代AI的Token成本便会下降约十倍。这每年十倍的降幅也反映出竞争的激烈程度——总有人率先抵达下一个层次。因此,这本质上是一场计算竞赛:计算速度越快,就能越早触及下一个前沿。
这些趋势正在同步发生。

为此我们决定,必须每年都将计算水平推向最前沿,绝不落后。我们在一年半前开始出货GB200,如今GB300已进入全面量产。如果Vera Rubin要赶上年内的AI前沿,它现在就必须已在生产线上。今天,我们可以宣布Vera Rubin已实现全面量产。

Vera Rubin的到来正逢AI的下一前沿。其架构由六颗协同设计的芯片构成,源于极致的协同设计。它始于Vera,一款定制CPU,性能是前代的两倍;以及Reuben GPU。Vera与Reuben从设计之初便共同优化,实现了双向、高速、低延迟的数据共享。随后,17,000个元件被高速机器人以微米级精度组装在Vera Rubin计算板上。最终,一颗Vera CPU与两颗Reuben GPU封装在一起,可提供高达100 petaflops的AI算力,是前代的五倍。
为满足AI对高速数据的需求,ConnectX9为每颗GPU提供了1.66 TB/s的扩展带宽。BlueField 4 DPU则卸载存储与安全任务,让计算资源完全专注于AI。Vera Rubin的计算托盘经过彻底重新设计,摒弃了线缆、管道或风扇。它集成BlueField 4 DPU、八个ConnectX9网络接口、两颗Vera CPU和四颗Reuben GPU,构成了Vera Rubin AI超级计算机的基础模块。
第六代NVLink交换机能够传输超过全球互联网流量的数据,可连接18个计算节点,并扩展至72颗Reuben GPU,使其作为一个整体运行。Spectrum X以太网Photonix则是全球首款拥有512条通道、200 Gbit/s能力的以太网交换机,可通过光模块连接数千个机架,构建成AI工厂。
从设计到实现,累计投入了15,000工程师年的努力。首个Vera Rubin NVLink 72机架现已上线。六颗突破性芯片,18个计算托盘,九个NVLink交换托盘,总计220万亿个晶体管,重近两吨,这标志着AI迈向下一前沿的巨大飞跃。
极致的协同设计:CPU专为AI超算打造
我们设计了六款不同的芯片。公司内部有一条很好的原则:每一代新产品,最多只能更改一到两颗芯片。但现实挑战在于,摩尔定律已经放缓,每年晶体管数量的增长,已无法匹配模型规模年增十倍、生成Token年增五倍以及Token成本快速下降的需求。

要让行业持续前进,唯一的方法是采用极致的协同设计,在芯片和整个系统栈的每一个层面进行全面创新。这也是为什么我们这一代必须重新设计每一颗芯片。每一颗芯片都足以成为一次独立发布会的主题,每一颗都是革命性的,都达到了同类最佳。
Vera CPU在功耗受限的环境下实现了前代两倍的性能,其每瓦性能是世界最先进CPU的两倍,拥有惊人的数据吞吐率,专为超级计算设计。Reuben GPU的浮点性能是Blackwell的5倍,但晶体管数量仅为后者的1.6倍,这反映了当前半导体物理的极限。若不进行极致的协同设计,并在系统每颗芯片上同步创新,就无法实现这样的性能飞跃。Vera CPU拥有88个核心,每个核心支持多线程,176个线程可发挥完整性能,并采用了空间多线程技术,I/O性能极高。
极端代码设计与 MVF FP4 张量核心
我们称之为“极端代码设计”。其核心创新之一是 MVF FP4 张量核心。芯片内部的 Transformer 引擎不再仅仅是处理4位浮点数的数据路径,而是一个完整的处理单元。它能够动态、自适应地调整计算精度和结构,以匹配 Transformer 模型中不同层次的计算需求,从而在实现最高可能吞吐量的同时,在必要时无缝切换回最高精度模式。这种动态自适应能力是硬件层面的根本性创新。
这种能力无法通过软件实现,因为其速度要求极高,必须在处理器内部实时完成。这就是 MVF FP4 的价值所在。单纯谈论 FP4 或 FP8 格式意义不大,关键在于张量核心的底层结构和算法。我们已就此发表论文,MVF FP4 在吞吐量和精度保持方面达到了前所未有的水平。这项开创性工作很可能成为未来行业的标准。正是这类创新,使得我们在晶体管数量仅比前代多1.6倍的情况下,实现了性能的巨大飞跃。
系统级革新:机箱、冷却与互连
要实现这样的性能,需要同样强大的系统平台支持。我们彻底重新设计了整个 MGX 机箱。这个计算节点非常庞大而复杂,包含43根线缆,采用全液冷设计(液冷占比达100%),彻底取消了传统管道。其组装过程极具挑战,仅组装环节就需要约两个小时,且涉及复杂的测试与验证流程。这是我们首批超级计算机之一被拆解重组后获得的经验结晶。

这个新计算机机箱通过 Spectrox NIC 连接到顶层机架交换机,以管理东西向网络流量。Spectrox NIC 是目前全球最佳的网络接口卡,它源于 NVIDIA 早期收购的 Mellanox 技术。其在高性能计算网络方面的算法、芯片设计、互连技术及软件堆栈(包括 RDMA 功能)均处于世界领先地位。如今,它还支持可编程 RDMA 和数据路径加速,允许 AI 实验室等合作伙伴自定义数据流算法。
网络革命:AI 以太网与 BlueField
在数据与存储方面,ConnectX9 是与 Vera CPU 协同设计的专用产品。它与 Spectrum X 系列一起,革命性地改造了 AI 以太网。AI 工作负载的网络流量强度极大,对延迟极度敏感,其突发流量模式远超普通以太网。两年前我们发布了 Spectrum X,如今 NVIDIA 已成为全球最大的网络公司,其解决方案全面覆盖 AI 领域。在动辄 200 兆瓦甚至 1 吉瓦、价值数十亿美元的数据中心里,Spectrum X 带来 25% 的吞吐量提升司空见惯,这相当于创造了巨大的额外价值。
我们还推出了 BlueField 4 DPU。如果说 Spectrum X 管理东西向流量,那么 BlueField 4 则专注于北-南向流量。它能将大型数据中心隔离为不同的虚拟区域供不同用户使用,并卸载了虚拟化、网络和安全软件。每个计算节点都将标配 BlueField 4,它还有另一项关键应用(下文详述)。这是一款革命性的处理器。

NVLink 6:超越全球互联网的机架内带宽
这是 NVLink 6 交换机。每个机架中部署四个,每个交换芯片拥有史上最快的 400 Gbps 速率(当前行业标准为 200 Gbps)。这使得每个 GPU 能够同时与机架内所有其他 GPU 进行全带宽通信。单个机架背板通过这台交换机可传输的数据量,相当于全球互联网总流量的两倍——其横向带宽高达 240 TB/s,而全球互联网流量约为 100 TB/s。这为实现 GPU 间的完全协同计算奠定了基础。

新一代机架:性能与能效的飞跃
这是一个完整的机架系统。其晶体管数量是前代的 1.7 倍,重量约两吨半。机架背后是 NVLink 主干,由总长约两英里、超过5000根先进的屏蔽结构化铜缆组成。这些铜缆以 400 Gbps 的速率传输信号,构成了 NGX 系统的互连革命。
我们致力于创建行业标准系统(NGX),让整个生态和供应链(从富士康、广达、纬创到惠普、戴尔、联想)都能基于统一的组件构建。该系统包含约8万个组件,其设计稳定性避免了每年重新设计的浪费。即使集成性能大幅提升、功耗翻倍的 Rubin 架构,它仍能保持相同的气流和 45°C 的冷却水温,无需数据中心使用冷水机组,实现了用热水高效冷却超级计算机。
成果是显著的:虽然晶体管数仅增加1.7倍,但该新机架的峰值推理性能提升了5倍,峰值训练性能提升了3.5倍。机架顶部通过 Spectrum X 交换机连接外部网络。

硅光子集成与下一代 Spectrum X
这是全球首个采用台积电(TSMC)新工艺 “CoWoS” 制造的芯片,集成了我们与 TSMC 共同创新的硅光子技术。该技术将硅光子器件直接集成到芯片上,支持 512 个端口、每个端口 200 Gbps。这就是新的以太网 AI 交换机 Spectrum X,它通过硅光子进行直接光连接,激光通过光学模块进入芯片,并连接到整个数据中心网络。

几年前我们引入 Spectrum X,重新定义了 AI 网络架构。它保留了以太网易于管理的特性,同时提供了媲美 InfiniBand 的性能。下一代 Spectrum X 将继续这一传统。
内存系统革命:Dynamo KV Cache 上下文内存系统
AI 正在重塑整个计算堆栈,包括存储层。AI 不使用传统的 SQL,而是处理语义信息,并生成临时的工作内存——即 KV Cache(键值缓存)。每生成一个 token,GPU 都需要读取整个模型和 KV Cache,生成后再写回。随着会话增长和模型变大,GPU 的 HBM 内存容量很快成为瓶颈。
去年我们为 Grace Blackwell 创建了快速上下文内存扩展方案,但这仍不足够。下一步需要利用网络访问企业级存储,但在大规模 AI 并行运行时,网络速度成为瓶颈。为此,我们引入了 BlueField 4 DPU 的新角色:在机架内提供高速的 KV Cache 上下文存储。这标志着一个全新存储类别的诞生。
业界对此反响热烈。对于需要生成大量 token 的 AI 实验室和云服务商而言,KV Cache 移动带来的巨大网络流量一直是核心痛点。我们的解决方案是创建一个全新的平台和处理器,专门管理整个 Dynamo KV Cache 上下文内存系统,并将其部署在机架附近,这完全是革命性的。
能效总结:省电 6%,整体能效翻倍
这就是 Vera Rubin 平台。所有计算节点通过 NVLink 72 互连,每个节点配备 4U Rubin GPU。上下文内存存储于此:每个节点背后部署 4 个 BlueField 4 DPU,每个 BlueField 配备 150 TB 上下文内存,从而为每个 GPU 额外提供 16 TB 的扩展内存。结合 GPU 自身的 1 TB HBM,整个节点在东西向 200 Gbps 的数据流下,获得了巨大的内存容量提升。

管理平面由 Spectrum X 交换机连接,节点末端的交换机再接入整个数据中心网络。最终,这一系列创新在保持 45°C 液冷进水温度的前提下,实现了 节省 6% 电力、整体能效提升一倍 的卓越成果。
Vera Rubin 架构具备多项突破性特性。首先,其系统能效实现翻倍提升,即便功耗增加,单位能耗所能提供的计算量也远超以往。得益于高效的液体冷却系统(水温维持在45°C),全球数据中心预计可节省约6%的电力消耗。其次,该架构全面支持机密计算,确保数据在传输、静态存储及计算过程中的全程加密,覆盖了包括PCIe、NVLink、CPU与GPU间以及GPU与GPU间的所有总线,为AI模型的安全部署提供了坚实保障。

针对AI工作负载瞬时功率峰值极高的特点,Rubin系统实现了智能功率平滑管理。这一技术避免了为应对峰值而超额预配高达25倍的功率容量,也消除了由此产生的约25%的能量浪费,从而能够更充分地利用整体功率预算。

在性能层面,Rubin架构带来了质的飞跃。其每个芯片与系统都经过全新设计,软件栈也完全重写,旨在极致优化AI模型训练效率。以训练一个10万亿参数模型(例如“Deep C++”)在100万亿token上的数据为例,得益于Rubin GPU极高的吞吐量,仅需原先四分之一规模的系统即可在一个月内完成训练。这种训练速度的提升直接关乎技术领先性、市场进入速度与产品定价能力。

在工厂级吞吐量与成本方面,以一座功率为1GW、造价500亿美元的数据中心为例,单位功耗性能直接决定了其运营收入。Rubin GPU的吞吐量相较于前代Blackwell实现了约10倍的提升(而Blackwell相较Hopper亦有约10倍提升),使得处理每个token的成本降至大约原来的十分之一。

通过这种方式,英伟达正将AI推向新的前沿,同时确保数据中心的能源与成本效率。如今,英伟达的角色已超越芯片制造商,致力于构建从芯片、基础设施到AI模型与应用的完整全栈系统,重新定义AI生态,赋能开发者创造革命性应用。
在CES展会现场,英伟达还通过Nvidia Live设置了体验环节,让与会者能够亲身感受接入全球顶级AI超级计算机的强大能力。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17134
