英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

英伟达发布开源混合专家模型Nemotron-3-Super,120B参数支持百万上下文

英伟达正式发布并开源了其最新的混合专家模型Nemotron-3-Super,该模型拥有1200亿参数,在多项基准测试中表现卓越。

在评估智能体控制能力的PinchBench测试中,Nemotron-3-Super取得了85.6%的高分,位列同类开源模型榜首。此外,在Artificial Intelligence Index评估中,该模型以37分的成绩超越了得分33分的GPT-OSS-120B。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

英伟达在开源模型领域持续投入。据其最新财务文件披露,公司计划在未来五年内投入260亿美元,用于构建开源人工智能模型。

百万级上下文与五倍吞吐量提升

Nemotron-3-Super原生支持100万token的上下文窗口,为处理复杂、多步骤的任务提供了充足的长期记忆容量。其运行效率也显著提升,推理吞吐量达到上一代Nemotron-Super模型的5倍以上。

在处理代码生成和工具调用等结构化任务时,该模型可实现最高3倍的实际推理加速。在特定的8k输入/64k输出测试配置下,其推理吞吐量达到GPT-OSS-120B的2.2倍。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

在具体基准测试中:
* 在软件工程基准SWE-Bench上,结合OpenHands框架,其准确率达到60.47%,高于GPT-OSS-120B的41.9%。
* 在终端操作基准Terminal Bench的困难子集测试中,得分为25.78%,略高于GPT-OSS-120B的24.00%。
* 在常识推理测试MMLU-Pro中,获得83.73分,优于GPT-OSS-120B的81.00分。
* 在涵盖航空、零售和电信领域的复杂业务场景测试TauBench V2中,平均成绩为61.15%。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

面向Blackwell架构的优化设计

Nemotron-3-Super的性能得益于其针对性的模型架构优化。

为高效处理长上下文,模型采用了混合Mamba-Transformer架构。该设计结合了具有线性时间复杂度的Mamba-2层来处理长序列,并在关键网络深度插入Transformer全局注意力层,以保障信息关联的准确性。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

在模型扩展方面,为突破传统混合专家架构的通信与计算瓶颈,模型引入了潜在混合专家架构。该技术将token投影到低秩潜空间进行降维后再进行路由决策,使得模型在同等计算成本下能够调用四倍数量的专家网络,实现更精细的任务处理。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

为提升生成速度,模型原生集成了多token预测技术。通过共享权重设计,模型能在单次前向传播中并行预测未来多个token,这不仅增强了对长程逻辑的理解,也带来了内置的推测解码能力,显著缩短了代码生成等任务的耗时。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

在硬件层面,模型采用原生NVFP4格式进行预训练。这种基于25万亿token的低精度预训练,使模型从初始阶段就适配Blackwell架构。最终,模型在B200芯片上的推理速度达到H100芯片的四倍,在降低内存需求的同时保持了准确性。

针对智能体能力的强化训练

为使模型具备执行复杂任务的智能体能力,英伟达在后训练阶段采用了多层次的强化策略。

在监督微调阶段,研发团队采用两阶段训练:第一阶段使用标记级平均损失建立推理基础;第二阶段切换为样本级平均损失,以解决长输入导致的性能下降问题,确保模型能针对海量信息给出精准的简短输出。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

针对智能体命令行交互,团队构建了一个包含2万个初始查询的种子任务集,并利用模型作为裁判进行筛选,最终提炼出1.5万个高质量合成任务。通过从高性能模型中蒸馏操作轨迹,Nemotron-3-Super掌握了复杂的终端交互技能。

英伟达发布最强开源龙虾模型Nemotron 3 Super,120B参数、百万上下文窗口、5倍吞吐量提升

在强化学习阶段,模型被置于NeMo Gym平台的21种真实环境配置中进行训练。评估维度涵盖工具调用的准确性、代码的可执行性及复杂计划的完整性。

针对高难度的软件工程任务,模型经历了专门的软件工程强化学习阶段,在隔离的容器环境中通过执行反馈来修正逻辑错误。

此外,团队还采用了枢轴强化学习技术,在编程和搜索等关键领域,重点强化专家轨迹中不确定性较高的决策点,从而提升模型在多步工作流中的稳定性,减少长任务中的推理漂移。

开源资源与参考链接

英伟达已全面开放Nemotron-3-Super的模型权重、训练与评估配方以及详细部署文档。

项目与报告链接:
* GitHub项目页:https://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3-Super
* 技术报告:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
* 官方博客介绍:https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25404

(0)
上一篇 2026年3月12日 上午10:57
下一篇 2026年3月12日 下午1:02

相关推荐

  • 开源终端Ghostty创始人泪别GitHub:故障频发,AI热潮下平台初心何在?

    广受好评的开源终端模拟器 Ghostty,正式宣布告别 GitHub 平台! 至于背后的原因,Ghostty 的缔造者、HashiCorp 联合创始人 Mitchell Hashimoto 在其个人博客上发布了一封充满不舍的“告别信”,详细阐述了这一决定。简而言之,核心问题在于:GitHub 的系统故障正变得越来越频繁。 随后,他还在 X 平台和 Hacke…

    2026年4月29日
    17900
  • SWE-Vision:让大模型用代码“看见”世界,五大视觉基准刷新SOTA

    多模态大模型在代码生成与理解方面取得了显著进展,但其在基础视觉任务上的表现却时常不尽如人意。针对这一短板,UniPat AI 提出了一个极简的视觉智能体框架——SWE-Vision。该框架的核心思想是让模型能够编写并执行 Python 代码,以此处理和验证自身的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均取得了当前最优的性能。 01|模型看得…

    2026年3月16日
    44300
  • GitHub热榜开源项目The Agency:55个AI专家角色库,打造你的虚拟AI公司

    最近,GitHub 趋势榜上出现了一个引人注目的开源项目——The Agency。它本质上是一个AI专家角色库,汇集了55个专业AI角色,并划分为9个部门,涵盖了从工程师、设计师到产品经理、增长黑客等各类常见岗位。 该项目起源于Reddit论坛上的一场讨论。作者发布想法后,短短12小时内便收到超过50位用户的资源请求,进而促成了该项目的诞生。 项目概览:它是…

    2026年3月9日
    1.8K00
  • AI 驱动的屏幕活动自动追踪神器 Dayflow:开源工具助你优化工作节奏与时间管理

    Dayflow:AI 驱动的屏幕活动自动追踪工具 Dayflow 是一款开源的原生 macOS 应用,能够自动记录用户的屏幕活动,并通过 AI 分析生成清晰的可视化时间轴报告,帮助优化工作节奏与时间管理。 开源项目简介 Dayflow 基于 SwiftUI 开发。安装后,它会以每秒 1 帧的频率进行轻量级屏幕录制,并每 15 分钟将最近的录制内容发送给 AI…

    2025年11月11日
    35200
  • JumpServer:12年开源堡垒机进化史,3万Star背后的企业级安全守护

    JumpServer:12年开源堡垒机进化史,3万Star背后的企业级安全守护 3万Star。 在国内企业级开源项目里,这是一个屈指可数的成就。 今天介绍的开源项目是 JumpServer。 这是一个开源的堡垒机,也是一个特权访问管理平台(PAM)。它通过浏览器为运维和开发团队提供安全的SSH、RDP、Kubernetes、数据库访问,并自带权限管控与全程审…

    2026年3月25日
    40200