全球市值领先的英伟达,正式进军OpenClaw领域。其最新发布的开源模型Nemotron 3 Super,专为大规模AI智能体打造。
该模型拥有1200亿参数,采用120亿激活参数,支持100万token的上下文长度。据称,其推理速度提升高达3倍,吞吐量提升达5倍。

Nemotron 3 Super采用了创新的Mamba-MoE混合架构,旨在解决多智能体协同中的性能瓶颈。它是Nemotron 3家族中首个实现以下三大技术突破的模型:
* 原生NVFP4精度预训练:全程使用NVFP4精度进行预训练,大幅降低显存需求。
* 全新LatentMoE架构:优化了“单位算力准确率”和“单位参数准确率”。
* 引入多Token预测(MTP)层:通过原生支持“投机解码”技术,显著提升推理速度。
在Pinchbench基准测试中,Nemotron 3 Super位列开源模型榜首。在OpenClaw任务成功率上,其取得了85.6%的成绩,性能接近Claude Opus 4.6与GPT-5.4等顶尖闭源模型。

目前,Nemotron 3 Super超过10万亿Token的预训练与后训练数据集、完整的训练方法论,以及15个强化学习环境均已开源。

开源地址:https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
专为智能体时代设计的1200亿参数模型
当前,AI应用正从单轮对话迈向多智能体协作,这通常面临两大挑战:
第一,上下文爆炸。 多智能体工作流生成的Token数量可能比常规对话高出15倍。每次交互都需要重新发送完整历史记录(包括工具输出和中间推理),导致成本激增,并在执行长周期任务时容易引发目标偏移(goal drift)。

第二,“思考税”(thinking tax)。 复杂的智能体需要在每一步进行推理。若每个子任务都调用大语言模型(LLM),将使多智能体应用成本高昂且响应迟缓,难以实际落地。
英伟达开源的Nemotron 3 Super旨在解决这两大瓶颈。

技术报告地址:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
该模型支持100万Token的上下文长度,在OpenClaw等环境中,能够将整个工作流状态完整保留在内存中,确保从始至终的逻辑一致性。
在Artificial Analysis的基准测试中,Nemotron 3 Super在效率和开源模型榜单上均取得了领先成绩。在同等规模的开源模型中,其准确率也表现突出。


此外,基于该模型构建的NVIDIA AI-Q研究型智能体,在DeepResearch Bench和DeepResearch Bench II排行榜上位列第一。

混合架构革新,吞吐量提升5倍
Nemotron 3 Super对底层架构进行了重构。其88层网络采用周期性交替排列:
* Mamba-2层:负责高效的序列建模,提供线性时间复杂度。
* Transformer注意力层:作为“全局锚点”穿插其中,负责长距离信息路由和高精度推理。

与上一代Nemotron Super模型相比,新架构实现了高达5倍的吞吐量提升和高达2倍的准确率提升。在与GPT-OSS-120B、Qwen3.5-122B等模型的对比中,Nemotron 3 Super均取得了最高成绩。在输入8k、输出64k序列的场景下,其吞吐量分别比上述两个模型高出2.2倍和7.5倍。

LatentMoE:硬件感知的专家设计
Nemotron 3 Super首次引入了“隐式MoE”(Latent MoE)架构。其核心思路是:在路由和专家计算前,先将Token从隐藏维度d投影到一个更小的潜在维度ℓ。路由和专家计算都在这个更小的维度中进行。
这意味着需要加载的专家参数和跨卡通信量大幅减少(缩小了d/ℓ倍)。节省的资源可用于增加专家总数和每次激活的专家数,从而在不显著增加推理成本的前提下提升模型准确率。官方表示,该设计能以1个专家的计算成本,激活4个专家的能力。
与传统MoE相比,LatentMoE在参数利用率和算力利用率上更具优势。

多Token预测:一举两得
Nemotron 3 Super还集成了多Token预测(MTP)技术,旨在同时提升模型质量和推理效率。
传统训练目标是“预测下一个token”,而MTP要求模型在每个位置同时预测未来多个Token。这迫使模型学习多步之间的因果关系和更长文本结构,从而有效降低了验证集损失并提升了下游任务性能。


MTP的另一大优势是实现了原生的投机解码(Speculative Decoding)。额外的预测头相当于模型内置的“草稿模型”。推理时,预测头快速生成后续Token候选,主模型在一次前向传播中完成验证,大幅降低了生成延迟,且额外计算开销极小。
原生NVFP4精度预训练
正如英伟达研究副总裁Bryan Catanzaro所言,Nemotron 3 Super专为Blackwell架构设计。预训练全程在Blackwell平台上使用NVFP4精度运行。在保证零准确率损失的前提下,其在Blackwell上的推理速度比在Hopper架构上使用FP8精度快4倍。

25万亿Token数据与21个RL环境
与之前的Nemotron 3 Nano一样,Nemotron 3 Super使用了25万亿Token的文本数据进行预训练。

预训练分为两个阶段:
1. 第一阶段:使用80%的数据(20万亿Token),侧重于数据多样性和广度,语料涵盖网页、代码、数学、学术论文、多语言文本等16个大类。
第二阶段使用剩余的20%数据(5万亿Token),这部分全部是经过精挑细选的高质量数据,大幅提升了维基百科、高质量PDF和STEM推理数据的权重,专门用于提升模型的准确性。
最终训练出的基础模型,在MMLU上达到86.01分,MMLU-Pro达到75.65分,MATH达到84.84分,性能远超同等参数规模的主流模型。

在后训练阶段,英伟达将重点放在了提升“AI智能体能力”上。

SFT阶段,使用了超过 700万个样本、800亿个Token 进行训练。在数据混合比例中,与智能体相关的任务占比高达36%,远超对话任务(23%)和推理任务(31%)。
其中,智能体训练数据的规模增长尤为显著。仅对话式工具调用一项,就从上一代Nano模型的5个领域、15,588条对话,大幅扩展到 838个领域、279,116条对话。
RL阶段则更为深入,分为四个步骤进行:
第一步,多环境RLVR。 同时在21个环境和37个数据集上进行训练,覆盖数学、代码、STEM、安全、对话、指令遵循、长上下文、谜题及各类智能体任务。每步采样256个提示词,每个提示词生成16个响应。
第二步,SWE-RL。 专门针对软件工程能力进行训练,投入了200亿Token。每次迭代都会启动一个容器,在真实的代码仓库中运行智能体循环,生成的代码补丁会使用真实的测试用例进行验证。
第三步,RLHF。 使用180亿Token,训练了一个基于Qwen3-235B的GenRM奖励模型,用于在身份认知和安全话题上精确调控模型行为。
第四步,MTP恢复。 冻结模型的主干参数,仅训练MTP预测头,以重新对齐投机解码的准确率。

这套顶级的AI智能体训练方案效果如何?以下几项关键指标可以说明:
- 在SWE-Bench(OpenHands)基准测试中达到 60.47% 的通过率,大幅超过GPT-OSS-120B的41.9%;
- 在RULER@1M长上下文测试中达到 91.75% 的准确率,而GPT-OSS-120B仅为22.3%;
- 在AIME25数学推理测试中获得90.21%的分数,与Qwen3.5-122B的90.36%几乎持平。

「龙虾」玩家赢麻了:数千页报告秒进内存
Nemotron 3 Super的高精度工具调用能力,使其驱动的OpenClaw智能体在多个领域实现了跨越式进化。
在软件开发中,AI智能体可以一次性将“整个代码库”加载到上下文中,无需进行繁琐的文档切分,即可实现端到端的代码生成、漏洞修复与自动化调试。
在财务分析场景下,Nemotron 3 Super能够将长达数千页的报告直接加载到内存中,从而省去了在冗长对话中反复重新推理的麻烦,大幅提升了工作效率。
凭借其强大的工具调用能力,Nemotron 3 Super还能让自主智能体在庞大的函数库中可靠地导航和操作,防止在网络安全领域的自主安全编排等高风险、关键环境中出现执行错误。

目前,已有多个平台和应用接入了Nemotron 3 Super模型:
* Perplexity已将其集成供用户搜索使用,并作为其Computer中的20个编排模型之一。
* CodeRabbit、Factory、Greptile等提供软件开发AI智能体的公司,已将其与自家模型集成。
* Edison Scientific和Lila Sciences等生命科学与前沿AI研究机构,也将利用Nemotron 3 Super为其智能体提供算力支持,用于深度文献检索、数据科学及分子结构理解等任务。

英伟达版OpenClaw,要来了
光有模型还不够,英伟达此次还计划推出配套的平台。
据WIRED报道,英伟达正在秘密开发一款名为 NemoClaw 的开源AI智能体平台,专门面向企业市场。从命名可以看出,“Nemo”对应Nemotron模型家族,“Claw”则指向OpenClaw。其目标是用自家模型打造一个企业级的OpenClaw平台。

与OpenClaw最大的区别在于 安全性 。OpenClaw在个人开发者中颇受欢迎,但企业往往因安全和隐私顾虑而不敢轻易采用。NemoClaw正是针对这一痛点设计,据报道,其从一开始就内置了一套安全和隐私工具。
此外,NemoClaw将完全开源,无论用户的系统是否基于英伟达芯片,都可以使用。其商业逻辑在于,智能体应用越广泛,对算力的需求就越大,英伟达的核心业务依然受益。
至此,英伟达的策略已清晰呈现:Nemotron 3 Super是强大的引擎,NemoClaw是稳固的底盘。通过“模型+平台”双管齐下,英伟达旨在为企业提供一套开箱即用的AI智能体全家桶解决方案。在个人玩家通过OpenClaw尝到甜头后,企业市场这块更大的蛋糕,英伟达显然志在必得。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25339
