英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

全球市值领先的英伟达,正式进军OpenClaw领域。其最新发布的开源模型Nemotron 3 Super,专为大规模AI智能体打造。

该模型拥有1200亿参数,采用120亿激活参数,支持100万token的上下文长度。据称,其推理速度提升高达3倍,吞吐量提升达5倍。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

Nemotron 3 Super采用了创新的Mamba-MoE混合架构,旨在解决多智能体协同中的性能瓶颈。它是Nemotron 3家族中首个实现以下三大技术突破的模型:
* 原生NVFP4精度预训练:全程使用NVFP4精度进行预训练,大幅降低显存需求。
* 全新LatentMoE架构:优化了“单位算力准确率”和“单位参数准确率”。
* 引入多Token预测(MTP)层:通过原生支持“投机解码”技术,显著提升推理速度。

在Pinchbench基准测试中,Nemotron 3 Super位列开源模型榜首。在OpenClaw任务成功率上,其取得了85.6%的成绩,性能接近Claude Opus 4.6与GPT-5.4等顶尖闭源模型。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6 英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

目前,Nemotron 3 Super超过10万亿Token的预训练与后训练数据集、完整的训练方法论,以及15个强化学习环境均已开源。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

开源地址:https://huggingface.co/collections/nvidia/nvidia-nemotron-v3

专为智能体时代设计的1200亿参数模型

当前,AI应用正从单轮对话迈向多智能体协作,这通常面临两大挑战:

第一,上下文爆炸。 多智能体工作流生成的Token数量可能比常规对话高出15倍。每次交互都需要重新发送完整历史记录(包括工具输出和中间推理),导致成本激增,并在执行长周期任务时容易引发目标偏移(goal drift)。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

第二,“思考税”(thinking tax)。 复杂的智能体需要在每一步进行推理。若每个子任务都调用大语言模型(LLM),将使多智能体应用成本高昂且响应迟缓,难以实际落地。

英伟达开源的Nemotron 3 Super旨在解决这两大瓶颈。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

技术报告地址:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf

该模型支持100万Token的上下文长度,在OpenClaw等环境中,能够将整个工作流状态完整保留在内存中,确保从始至终的逻辑一致性。

在Artificial Analysis的基准测试中,Nemotron 3 Super在效率和开源模型榜单上均取得了领先成绩。在同等规模的开源模型中,其准确率也表现突出。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6
英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

此外,基于该模型构建的NVIDIA AI-Q研究型智能体,在DeepResearch Bench和DeepResearch Bench II排行榜上位列第一。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

混合架构革新,吞吐量提升5倍

Nemotron 3 Super对底层架构进行了重构。其88层网络采用周期性交替排列:
* Mamba-2层:负责高效的序列建模,提供线性时间复杂度。
* Transformer注意力层:作为“全局锚点”穿插其中,负责长距离信息路由和高精度推理。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

与上一代Nemotron Super模型相比,新架构实现了高达5倍的吞吐量提升和高达2倍的准确率提升。在与GPT-OSS-120B、Qwen3.5-122B等模型的对比中,Nemotron 3 Super均取得了最高成绩。在输入8k、输出64k序列的场景下,其吞吐量分别比上述两个模型高出2.2倍和7.5倍。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

LatentMoE:硬件感知的专家设计

Nemotron 3 Super首次引入了“隐式MoE”(Latent MoE)架构。其核心思路是:在路由和专家计算前,先将Token从隐藏维度d投影到一个更小的潜在维度ℓ。路由和专家计算都在这个更小的维度中进行。

这意味着需要加载的专家参数和跨卡通信量大幅减少(缩小了d/ℓ倍)。节省的资源可用于增加专家总数和每次激活的专家数,从而在不显著增加推理成本的前提下提升模型准确率。官方表示,该设计能以1个专家的计算成本,激活4个专家的能力。

与传统MoE相比,LatentMoE在参数利用率和算力利用率上更具优势。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

多Token预测:一举两得

Nemotron 3 Super还集成了多Token预测(MTP)技术,旨在同时提升模型质量和推理效率。

传统训练目标是“预测下一个token”,而MTP要求模型在每个位置同时预测未来多个Token。这迫使模型学习多步之间的因果关系和更长文本结构,从而有效降低了验证集损失并提升了下游任务性能。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6
英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

MTP的另一大优势是实现了原生的投机解码(Speculative Decoding)。额外的预测头相当于模型内置的“草稿模型”。推理时,预测头快速生成后续Token候选,主模型在一次前向传播中完成验证,大幅降低了生成延迟,且额外计算开销极小。

原生NVFP4精度预训练

正如英伟达研究副总裁Bryan Catanzaro所言,Nemotron 3 Super专为Blackwell架构设计。预训练全程在Blackwell平台上使用NVFP4精度运行。在保证零准确率损失的前提下,其在Blackwell上的推理速度比在Hopper架构上使用FP8精度快4倍。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

25万亿Token数据与21个RL环境

与之前的Nemotron 3 Nano一样,Nemotron 3 Super使用了25万亿Token的文本数据进行预训练。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

预训练分为两个阶段:
1. 第一阶段:使用80%的数据(20万亿Token),侧重于数据多样性和广度,语料涵盖网页、代码、数学、学术论文、多语言文本等16个大类。

第二阶段使用剩余的20%数据(5万亿Token),这部分全部是经过精挑细选的高质量数据,大幅提升了维基百科、高质量PDF和STEM推理数据的权重,专门用于提升模型的准确性。

最终训练出的基础模型,在MMLU上达到86.01分,MMLU-Pro达到75.65分,MATH达到84.84分,性能远超同等参数规模的主流模型。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

在后训练阶段,英伟达将重点放在了提升“AI智能体能力”上。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

SFT阶段,使用了超过 700万个样本、800亿个Token 进行训练。在数据混合比例中,与智能体相关的任务占比高达36%,远超对话任务(23%)和推理任务(31%)。

其中,智能体训练数据的规模增长尤为显著。仅对话式工具调用一项,就从上一代Nano模型的5个领域、15,588条对话,大幅扩展到 838个领域、279,116条对话

RL阶段则更为深入,分为四个步骤进行:

第一步,多环境RLVR。 同时在21个环境和37个数据集上进行训练,覆盖数学、代码、STEM、安全、对话、指令遵循、长上下文、谜题及各类智能体任务。每步采样256个提示词,每个提示词生成16个响应。

第二步,SWE-RL。 专门针对软件工程能力进行训练,投入了200亿Token。每次迭代都会启动一个容器,在真实的代码仓库中运行智能体循环,生成的代码补丁会使用真实的测试用例进行验证。

第三步,RLHF。 使用180亿Token,训练了一个基于Qwen3-235B的GenRM奖励模型,用于在身份认知和安全话题上精确调控模型行为。

第四步,MTP恢复。 冻结模型的主干参数,仅训练MTP预测头,以重新对齐投机解码的准确率。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

这套顶级的AI智能体训练方案效果如何?以下几项关键指标可以说明:

  • 在SWE-Bench(OpenHands)基准测试中达到 60.47% 的通过率,大幅超过GPT-OSS-120B的41.9%;
  • 在RULER@1M长上下文测试中达到 91.75% 的准确率,而GPT-OSS-120B仅为22.3%;
  • 在AIME25数学推理测试中获得90.21%的分数,与Qwen3.5-122B的90.36%几乎持平。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

「龙虾」玩家赢麻了:数千页报告秒进内存

Nemotron 3 Super的高精度工具调用能力,使其驱动的OpenClaw智能体在多个领域实现了跨越式进化。

在软件开发中,AI智能体可以一次性将“整个代码库”加载到上下文中,无需进行繁琐的文档切分,即可实现端到端的代码生成、漏洞修复与自动化调试。

在财务分析场景下,Nemotron 3 Super能够将长达数千页的报告直接加载到内存中,从而省去了在冗长对话中反复重新推理的麻烦,大幅提升了工作效率。

凭借其强大的工具调用能力,Nemotron 3 Super还能让自主智能体在庞大的函数库中可靠地导航和操作,防止在网络安全领域的自主安全编排等高风险、关键环境中出现执行错误。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

目前,已有多个平台和应用接入了Nemotron 3 Super模型:
* Perplexity已将其集成供用户搜索使用,并作为其Computer中的20个编排模型之一。
* CodeRabbit、Factory、Greptile等提供软件开发AI智能体的公司,已将其与自家模型集成。
* Edison Scientific和Lila Sciences等生命科学与前沿AI研究机构,也将利用Nemotron 3 Super为其智能体提供算力支持,用于深度文献检索、数据科学及分子结构理解等任务。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

英伟达版OpenClaw,要来了

光有模型还不够,英伟达此次还计划推出配套的平台。

据WIRED报道,英伟达正在秘密开发一款名为 NemoClaw 的开源AI智能体平台,专门面向企业市场。从命名可以看出,“Nemo”对应Nemotron模型家族,“Claw”则指向OpenClaw。其目标是用自家模型打造一个企业级的OpenClaw平台。

英伟达重磅开源Nemotron 3 Super:1200亿参数专为Agent打造,性能直逼Claude Opus 4.6

与OpenClaw最大的区别在于 安全性 。OpenClaw在个人开发者中颇受欢迎,但企业往往因安全和隐私顾虑而不敢轻易采用。NemoClaw正是针对这一痛点设计,据报道,其从一开始就内置了一套安全和隐私工具。

此外,NemoClaw将完全开源,无论用户的系统是否基于英伟达芯片,都可以使用。其商业逻辑在于,智能体应用越广泛,对算力的需求就越大,英伟达的核心业务依然受益。

至此,英伟达的策略已清晰呈现:Nemotron 3 Super是强大的引擎,NemoClaw是稳固的底盘。通过“模型+平台”双管齐下,英伟达旨在为企业提供一套开箱即用的AI智能体全家桶解决方案。在个人玩家通过OpenClaw尝到甜头后,企业市场这块更大的蛋糕,英伟达显然志在必得。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25339

(0)
上一篇 2026年3月12日 上午10:41
下一篇 2026年3月12日 上午10:53

相关推荐

  • 黄仁勋街头力挺OpenAI:英伟达将投史上最大融资,千亿美元合作未停滞

    闻乐 发自 凹非寺 “完全胡说八道!” 都在传英伟达和OpenAI的千亿美元世纪大单谈崩了、黄仁勋私下吐槽奥特曼无能、烧钱无度,不少人猜测这对AI圈的黄金搭档要闹掰。 结果才过不到24小时,黄仁勋就直接强势回应:No Sense! 老黄街头接受采访时不仅打破传闻,还大方表态:我非常欣赏奥特曼。 总之,他的意思是英伟达肯定要投OpenAI最新一轮融资,而且这笔…

    2026年2月1日
    40500
  • 效率革命:微博VibeThinker以15亿参数重塑大模型竞争格局

    在AI行业普遍陷入“参数崇拜”的背景下,微博AI近期发布的VibeThinker开源大模型,以仅15亿参数的轻量级架构,在国际顶级数学竞赛基准测试中击败了参数量高达6710亿的DeepSeek R1模型,这一突破性成果不仅挑战了传统技术评价标准,更可能引发AI产业从“规模竞赛”向“效率革命”的深刻转型。 ### 技术范式突破:小模型如何实现复杂推理能力 长期…

    2025年11月18日
    33600
  • Gemini 3 Flash:谷歌以极致效率重塑AI应用范式,开启规模化智能新时代

    在人工智能领域竞争日趋白热化的当下,谷歌于北京时间周四零点正式发布了Gemini 3 Flash模型,这不仅是其2024年大模型战略的收官之作,更标志着AI技术从单纯追求参数规模向效率与智能并重的关键转折。作为基于上个月发布的Gemini 3架构优化而来的高速、低成本模型,Gemini 3 Flash的推出具有多重战略意义:一方面直接对标OpenAI等竞争对…

    2025年12月19日
    35900
  • 超越结果正确:Coding Agent过程合规评测新范式揭秘

    在 AI 辅助编程工具的实际应用中,一个值得深思的现象正在浮现:用户对 Agent 的不满,往往不是因为它“做不到”,而是因为它“做得不对”。通过观察用户反馈,最高频的抱怨指向同一个问题:Agent 不遵循明确给出的指令。这些场景或许并不陌生——用户在系统提示中明确要求“不要使用 emoji”,Agent 却在代码注释里加上表情符号;用户要求“先备份再修改”…

    2026年1月15日
    42100
  • 边缘智能体新突破:3B小模型函数调用准确率达88.22%,超越轻量模型近70%

    关键词:Small Language Models 小语言模型、 Function Calling 函数调用、Edge Devices 边缘设备、Direct Preference Optimization 直接偏好优化、 Hybrid Fine-Tuning 混合微调 近期,一项名为 《TinyLLM: Evaluation and Optimizatio…

    2026年2月4日
    38300