英伟达豪掷260亿美元进军开源大模型:从AI基础设施霸主到亲自下场淘金

昨日,我们解读了英伟达CEO黄仁勋发表的长篇博客。他在文中指出,人工智能是当今塑造世界最强大的力量之一,它并非单一应用或模型,而是如同电力和互联网一般的关键基础设施。

他将人工智能基础设施划分为“五层蛋糕”:能源 → 芯片 → 基础设施 → 模型 → 应用。目前,英伟达自身已成为人工智能时代基础设施的核心部分,尤其在芯片及“AI工厂”类基础设施领域占据主导地位。

然而,英伟达的雄心显然不止于此,其触角正试图伸向“五层蛋糕”的每一层。2023年11月,英伟达推出首个Nemotron模型,标志着其正式进军通用大模型领域,并开始探索将CUDA生态与自研模型深度结合的路径。

Nemotron系列模型尝试了多种技术路线,包括多种混合架构模型,如Mamba-Transformer架构的Nemotron-H、Llama-Nemotron、Jet-Nemotron等,直至近期采用混合专家架构的Nemotron 3。

尽管英伟达在这些开源模型中不乏性能强大、甚至曾跻身第一梯队的作品,但外界普遍认为Nemotron系列仍带有浓厚的技术试验色彩。

不过,英伟达在开源模型研究上的投入是认真的。根据2025年的一份财务文件披露,英伟达计划在未来五年内投入260亿美元用于构建开源人工智能模型。这一此前未被报道的消息已得到《WIRED》杂志的证实及英伟达高管的确认。

英伟达豪掷260亿美元进军开源大模型:从AI基础设施霸主到亲自下场淘金

业界常将英伟达比作“淘金热中卖铲子”的聪明人。但这笔巨额投资预示着英伟达正经历一场战略蜕变。当“卖铲人”亲自下场“淘金”,其目的究竟是为了更好地“卖铲子”,还是意图彻底占据整片“金矿”?

本周三,英伟达发布了迄今为止性能最强的开源模型——Nemotron 3 Super。该模型拥有1280亿参数,在体量上已与OpenAI的最大版本GPT-OSS相当。英伟达宣称,该模型在多项基准测试中的表现均优于GPT-OSS及其他同类竞品。

“英伟达正以更严肃的态度对待开源模型的开发,并且正在取得实质性进展。”英伟达应用深度学习研究副总裁布莱恩・卡坦扎罗表示。

尽管如此,英伟达正式大举投入开源模型研发的动机,仍令外界感到些许费解。

英伟达豪掷260亿美元进军开源大模型:从AI基础设施霸主到亲自下场淘金

对此,英伟达企业级生成式AI软件副总裁卡里・布里斯基给出了解释。她表示,英伟达未来的AI模型不仅将助力公司改进芯片设计,还将用于提升其构建的超算级数据中心性能。“我们构建模型是为了突破系统的极限,这不仅是为了测试计算能力,还包括存储和网络等各个方面,并以此指导我们的硬件架构路线图规划。”

此外,另一个重要驱动力在于当前的前沿开源模型生态。目前,顶尖的开源模型力量大量集中在中国,包括DeepSeek、Qwen、月之暗面、智谱AI以及MiniMax等众多中国顶尖模型都选择了免费开放权重的策略。这使得全球许多初创公司和研究人员正基于这些中国模型进行开发。这或许是英伟达决心重金投入开放权重大模型研发的关键因素之一。

计算机科学家、致力于推动AI开放性的非营利组织Laude Institute负责人安迪・康温斯基评价道:“(英伟达)处于众多开源和闭源AI工作的最前沿,这是他们对于开放生态抱有坚定信念的一个空前强烈的信号。”

英伟达正从算力供应商向全栈AI巨头进行战略转型,其目标直指由OpenAI和DeepSeek等领衔的前沿模型领域。这种“以模型驱动硬件”的策略,旨在通过对底层芯片能力的极致优化,在全球AI基础设施的竞争中,进一步巩固其在AI算力领域的绝对优势与护城河。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/25433

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 从文本生成到任务执行:AI能力跃迁的三年革命与人类角色的重新定义

    在人工智能发展的历史长河中,过去三年无疑构成了一个独特而关键的转折期。从2022年底ChatGPT引爆全球关注至今,AI技术不仅完成了从实验室到大众应用的跨越,更在功能形态上实现了从被动响应到主动执行的质变。这一进程不仅重塑了技术本身的能力边界,更在深层次上重构了人类与智能系统之间的协作关系。 回顾三年前的技术图景,GPT-3所展现的文本生成能力曾被视为革命…

    2025年11月30日
    16200
  • Gemini 3 Pro引爆创意革命:从文本到交互式应用的AI生成新范式

    在人工智能技术快速迭代的浪潮中,谷歌最新发布的Gemini 3 Pro模型以其惊人的多模态生成能力,正在重新定义创意实现的边界。这款被网友戏称为“与上一代2.5 Pro之间差出一个GPT-5.1”的模型,仅发布一天就催生了大量令人惊叹的应用实例,展现出从简单文本描述到完整交互式应用的跨越式生成能力。 从技术架构层面分析,Gemini 3 Pro的核心突破在于…

    2025年11月20日
    16200
  • 从特征拼接失败到策略共识突破:多模态机器人感知的范式转移

    在机器人技术快速发展的今天,多模态感知融合已成为提升机器人环境交互能力的关键路径。然而,传统方法在处理稀疏模态任务时暴露出的严重缺陷,正推动着研究范式的根本性转变。由伊利诺伊大学香槟分校、哈佛大学、哥伦比亚大学和麻省理工学院联合完成的这项研究,通过《Multi-Modal Manipulation via Policy Consensus》论文(链接:htt…

    2025年12月3日
    16600
  • Cloudflare颠覆AI网页抓取:Markdown for Agents实现80% Token节省,开启内容消费新范式

    Cloudflare 推出的 Markdown for Agents 功能,正在从根本上改变 AI 抓取网页的方式。这项技术允许网站在服务器端直接将 HTML 内容实时转换为 Markdown 格式,从而免去了每个 AI 系统各自进行转换的繁琐过程。 其核心在于内容协商机制。当 AI 系统在 HTTP 请求头中添加 Accept: text/markdown…

    2026年2月15日
    9900
  • 阿里Qwen3.5小模型震撼发布:0.8B参数即可处理视频,边缘AI时代正式开启!

    阿里通义千问发布了Qwen3.5系列的四款小参数规模模型,分别为0.8B、2B、4B和9B。该系列的核心创新在于引入了Gated DeltaNet混合注意力机制,此项技术借鉴自其397B参数的大模型。 该架构采用三层线性注意力层对应一层全注意力层的设计。线性层负责常规计算,内存占用保持恒定;全注意力层仅在需要精确计算时激活。这种3:1的配比使得模型在维持高质…

    2026年3月3日
    21500