英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

全球市值领先的英伟达，正式进军OpenClaw领域。其最新发布的开源模型Nemotron 3 Super，专为大规模AI智能体打造。

该模型拥有1200亿参数，采用120亿激活参数，支持100万token的上下文长度。据称，其推理速度提升高达3倍，吞吐量提升达5倍。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

Nemotron 3 Super采用了创新的Mamba-MoE混合架构，旨在解决多智能体协同中的性能瓶颈。它是Nemotron 3家族中首个实现以下三大技术突破的模型：
* 原生NVFP4精度预训练：全程使用NVFP4精度进行预训练，大幅降低显存需求。
* 全新LatentMoE架构：优化了“单位算力准确率”和“单位参数准确率”。
* 引入多Token预测（MTP）层：通过原生支持“投机解码”技术，显著提升推理速度。

在Pinchbench基准测试中，Nemotron 3 Super位列开源模型榜首。在OpenClaw任务成功率上，其取得了85.6%的成绩，性能接近Claude Opus 4.6与GPT-5.4等顶尖闭源模型。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

目前，Nemotron 3 Super超过10万亿Token的预训练与后训练数据集、完整的训练方法论，以及15个强化学习环境均已开源。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

开源地址：https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

专为智能体时代设计的1200亿参数模型

当前，AI应用正从单轮对话迈向多智能体协作，这通常面临两大挑战：

第一，上下文爆炸。 多智能体工作流生成的Token数量可能比常规对话高出15倍。每次交互都需要重新发送完整历史记录（包括工具输出和中间推理），导致成本激增，并在执行长周期任务时容易引发目标偏移（goal drift）。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

第二，“思考税”（thinking tax）。 复杂的智能体需要在每一步进行推理。若每个子任务都调用大语言模型（LLM），将使多智能体应用成本高昂且响应迟缓，难以实际落地。

英伟达开源的Nemotron 3 Super旨在解决这两大瓶颈。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

技术报告地址：https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

该模型支持100万Token的上下文长度，在OpenClaw等环境中，能够将整个工作流状态完整保留在内存中，确保从始至终的逻辑一致性。

在Artificial Analysis的基准测试中，Nemotron 3 Super在效率和开源模型榜单上均取得了领先成绩。在同等规模的开源模型中，其准确率也表现突出。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

此外，基于该模型构建的NVIDIA AI-Q研究型智能体，在DeepResearch Bench和DeepResearch Bench II排行榜上位列第一。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

混合架构革新，吞吐量提升5倍

Nemotron 3 Super对底层架构进行了重构。其88层网络采用周期性交替排列：
* Mamba-2层：负责高效的序列建模，提供线性时间复杂度。
* Transformer注意力层：作为“全局锚点”穿插其中，负责长距离信息路由和高精度推理。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

与上一代Nemotron Super模型相比，新架构实现了高达5倍的吞吐量提升和高达2倍的准确率提升。在与GPT-OSS-120B、Qwen3.5-122B等模型的对比中，Nemotron 3 Super均取得了最高成绩。在输入8k、输出64k序列的场景下，其吞吐量分别比上述两个模型高出2.2倍和7.5倍。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

LatentMoE：硬件感知的专家设计

Nemotron 3 Super首次引入了“隐式MoE”（Latent MoE）架构。其核心思路是：在路由和专家计算前，先将Token从隐藏维度d投影到一个更小的潜在维度ℓ。路由和专家计算都在这个更小的维度中进行。

这意味着需要加载的专家参数和跨卡通信量大幅减少（缩小了d/ℓ倍）。节省的资源可用于增加专家总数和每次激活的专家数，从而在不显著增加推理成本的前提下提升模型准确率。官方表示，该设计能以1个专家的计算成本，激活4个专家的能力。

与传统MoE相比，LatentMoE在参数利用率和算力利用率上更具优势。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

多Token预测：一举两得

Nemotron 3 Super还集成了多Token预测（MTP）技术，旨在同时提升模型质量和推理效率。

传统训练目标是“预测下一个token”，而MTP要求模型在每个位置同时预测未来多个Token。这迫使模型学习多步之间的因果关系和更长文本结构，从而有效降低了验证集损失并提升了下游任务性能。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

MTP的另一大优势是实现了原生的投机解码（Speculative Decoding）。额外的预测头相当于模型内置的“草稿模型”。推理时，预测头快速生成后续Token候选，主模型在一次前向传播中完成验证，大幅降低了生成延迟，且额外计算开销极小。

原生NVFP4精度预训练

正如英伟达研究副总裁Bryan Catanzaro所言，Nemotron 3 Super专为Blackwell架构设计。预训练全程在Blackwell平台上使用NVFP4精度运行。在保证零准确率损失的前提下，其在Blackwell上的推理速度比在Hopper架构上使用FP8精度快4倍。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

25万亿Token数据与21个RL环境

与之前的Nemotron 3 Nano一样，Nemotron 3 Super使用了25万亿Token的文本数据进行预训练。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

预训练分为两个阶段：
1. 第一阶段：使用80%的数据（20万亿Token），侧重于数据多样性和广度，语料涵盖网页、代码、数学、学术论文、多语言文本等16个大类。

第二阶段使用剩余的20%数据（5万亿Token），这部分全部是经过精挑细选的高质量数据，大幅提升了维基百科、高质量PDF和STEM推理数据的权重，专门用于提升模型的准确性。

最终训练出的基础模型，在MMLU上达到86.01分，MMLU-Pro达到75.65分，MATH达到84.84分，性能远超同等参数规模的主流模型。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

在后训练阶段，英伟达将重点放在了提升“AI智能体能力”上。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

SFT阶段，使用了超过 700万个样本、800亿个Token 进行训练。在数据混合比例中，与智能体相关的任务占比高达36%，远超对话任务（23%）和推理任务（31%）。

其中，智能体训练数据的规模增长尤为显著。仅对话式工具调用一项，就从上一代Nano模型的5个领域、15,588条对话，大幅扩展到 838个领域、279,116条对话。

RL阶段则更为深入，分为四个步骤进行：

第一步，多环境RLVR。 同时在21个环境和37个数据集上进行训练，覆盖数学、代码、STEM、安全、对话、指令遵循、长上下文、谜题及各类智能体任务。每步采样256个提示词，每个提示词生成16个响应。

第二步，SWE-RL。 专门针对软件工程能力进行训练，投入了200亿Token。每次迭代都会启动一个容器，在真实的代码仓库中运行智能体循环，生成的代码补丁会使用真实的测试用例进行验证。

第三步，RLHF。 使用180亿Token，训练了一个基于Qwen3-235B的GenRM奖励模型，用于在身份认知和安全话题上精确调控模型行为。

第四步，MTP恢复。 冻结模型的主干参数，仅训练MTP预测头，以重新对齐投机解码的准确率。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

这套顶级的AI智能体训练方案效果如何？以下几项关键指标可以说明：

在SWE-Bench（OpenHands）基准测试中达到 60.47% 的通过率，大幅超过GPT-OSS-120B的41.9%；
在RULER@1M长上下文测试中达到 91.75% 的准确率，而GPT-OSS-120B仅为22.3%；
在AIME25数学推理测试中获得90.21%的分数，与Qwen3.5-122B的90.36%几乎持平。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

「龙虾」玩家赢麻了：数千页报告秒进内存

Nemotron 3 Super的高精度工具调用能力，使其驱动的OpenClaw智能体在多个领域实现了跨越式进化。

在软件开发中，AI智能体可以一次性将“整个代码库”加载到上下文中，无需进行繁琐的文档切分，即可实现端到端的代码生成、漏洞修复与自动化调试。

在财务分析场景下，Nemotron 3 Super能够将长达数千页的报告直接加载到内存中，从而省去了在冗长对话中反复重新推理的麻烦，大幅提升了工作效率。

凭借其强大的工具调用能力，Nemotron 3 Super还能让自主智能体在庞大的函数库中可靠地导航和操作，防止在网络安全领域的自主安全编排等高风险、关键环境中出现执行错误。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

目前，已有多个平台和应用接入了Nemotron 3 Super模型：
* Perplexity已将其集成供用户搜索使用，并作为其Computer中的20个编排模型之一。
* CodeRabbit、Factory、Greptile等提供软件开发AI智能体的公司，已将其与自家模型集成。
* Edison Scientific和Lila Sciences等生命科学与前沿AI研究机构，也将利用Nemotron 3 Super为其智能体提供算力支持，用于深度文献检索、数据科学及分子结构理解等任务。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

英伟达版OpenClaw，要来了

光有模型还不够，英伟达此次还计划推出配套的平台。

据WIRED报道，英伟达正在秘密开发一款名为 NemoClaw 的开源AI智能体平台，专门面向企业市场。从命名可以看出，“Nemo”对应Nemotron模型家族，“Claw”则指向OpenClaw。其目标是用自家模型打造一个企业级的OpenClaw平台。

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

与OpenClaw最大的区别在于 安全性 。OpenClaw在个人开发者中颇受欢迎，但企业往往因安全和隐私顾虑而不敢轻易采用。NemoClaw正是针对这一痛点设计，据报道，其从一开始就内置了一套安全和隐私工具。

此外，NemoClaw将完全开源，无论用户的系统是否基于英伟达芯片，都可以使用。其商业逻辑在于，智能体应用越广泛，对算力的需求就越大，英伟达的核心业务依然受益。

至此，英伟达的策略已清晰呈现：Nemotron 3 Super是强大的引擎，NemoClaw是稳固的底盘。通过“模型+平台”双管齐下，英伟达旨在为企业提供一套开箱即用的AI智能体全家桶解决方案。在个人玩家通过OpenClaw尝到甜头后，企业市场这块更大的蛋糕，英伟达显然志在必得。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/25339

英伟达重磅开源Nemotron 3 Super：1200亿参数专为Agent打造，性能直逼Claude Opus 4.6

专为智能体时代设计的1200亿参数模型

混合架构革新，吞吐量提升5倍

LatentMoE：硬件感知的专家设计

多Token预测：一举两得

原生NVFP4精度预训练

25万亿Token数据与21个RL环境

「龙虾」玩家赢麻了：数千页报告秒进内存

英伟达版OpenClaw，要来了

相关推荐

黄仁勋街头力挺OpenAI：英伟达将投史上最大融资，千亿美元合作未停滞

效率革命：微博VibeThinker以15亿参数重塑大模型竞争格局

Gemini 3 Flash：谷歌以极致效率重塑AI应用范式，开启规模化智能新时代

超越结果正确：Coding Agent过程合规评测新范式揭秘

边缘智能体新突破：3B小模型函数调用准确率达88.22%，超越轻量模型近70%