英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

这流畅的游戏动作,堪比技术流玩家的实况画面。尤其是《茶杯头》中的躲避、跳跃、踩灵魂一气呵成,令人惊叹。

最令人震撼的是,上述操作完全由AI完成。

与传统的单一游戏自动化脚本不同,这是一个完整的通用大模型,能够玩遍市面上几乎全部的游戏类型。

这就是来自英伟达的最新开源基础模型——NitroGen。

该模型的训练目标是玩1000款以上的游戏,无论是RPG、平台跳跃、吃鸡、竞速,还是2D、3D游戏,统统不在话下。

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

模型直接以游戏视频帧作为输入,输出真实的手柄操作信号,天然适配所有支持手柄的游戏。NitroGen支持后训练,意味着当它面对一款从未见过的新游戏时,并不需要从零开始学习规则,只需少量微调或轻量适配,就能迅速上手,真正具备了跨游戏泛化的潜力。

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

  • 项目地址: https://nitrogen.minedojo.org
  • 论文地址: https://nitrogen.minedojo.org/assets/documents/nitrogen.pdf
  • 代码链接: https://github.com/MineDojo/NitroGen
  • 预训练模型: https://huggingface.co/nvidia/NitroGen
  • 数据集: https://huggingface.co/datasets/nvidia/NitroGen

模型配方

英伟达研究团队发现,原本为机器人设计的GR00T N1.5架构,只需极少改动,就能适配机制差异极大的各类游戏。

NitroGen的设计融合了三项关键要素:

  1. 互联网规模的视频-动作数据集:通过从公开可获取的游戏视频中,自动提取玩家操作,构建而成。
  2. 多游戏基准评测环境:用于系统性地评估模型在不同游戏之间的泛化能力。
  3. 统一的视觉-动作策略模型:采用大规模行为克隆进行训练。

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

总体概览

NitroGen由三个核心组件构成:

  1. 多游戏基础智能体
    一个通用的视觉-动作模型,能够接收游戏观测(如视频帧),并生成对应的手柄操作指令,实现跨多款游戏的零样本(zero-shot)游玩能力,同时也可作为基础模型,用于对新游戏进行进一步微调与适配。

  2. 通用模拟器
    一个环境封装层,使任意商业游戏都可以通过Gymnasium API进行控制,从而统一不同游戏的交互接口,支持大规模训练与评测。

  3. 互联网规模的数据集
    目前规模最大、类型最丰富的开源游戏数据集之一,来源于40,000小时的公开游戏视频,覆盖1,000余款游戏,并自动提取并生成了对应的动作标签。

互联网规模多游戏视频动作数据集

通过从屏幕显示中提取玩家的实时手柄操作来获取动作信息,这类显示被称为「输入叠加层(input overlays)」。

研究团队收集了大量公开可获取的、带有「手柄操作叠加显示」的游戏视频。这些叠加层具有高度多样性,给数据处理带来了显著挑战:不同内容创作者使用的手柄类型差异很大(如Xbox、PlayStation或其他控制器),叠加层的透明度各不相同,同时视频压缩还会引入各种视觉伪影。

对于每一段收集到的视频,研究团队会采样25帧图像,并使用SIFT与XFeat特征,与精心整理的模板集合进行关键点匹配,以此定位手柄在画面中的位置。随后,基于模板匹配的结果,对视频中的手柄区域进行定位与裁剪。

数据整理的过程本身就很有意思:研究团队发现,玩家非常乐于展示自己的操作技巧,常常会在视频中叠加实时显示的手柄输入。于是团队训练了一个分割模型,自动检测并提取这些手柄显示区域,将其转换为「专家级动作标签」。

随后,研究团队会把这一区域在视频中遮挡掉,防止模型通过「偷看答案」的方式走捷径。在训练过程中,GR00T N1.5的一个变体使用扩散Transformer,从4万小时的像素级输入直接学习到动作输出。

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

NitroGen数据集在不同游戏与类型上的分布情况

在完成数据筛选后,该数据集共包含40,000小时的游戏视频,覆盖1,000余款游戏。

  • (a)单游戏数据时长分布
    从每款游戏对应的视频时长来看,数据覆盖范围广泛:846款游戏拥有超过1小时的数据,91款游戏拥有超过100小时的数据,其中还有15款游戏的累计数据量超过1,000小时。
  • (b)游戏类型分布
    从游戏类型来看,动作RPG占比最高,占总时长的34.9%;其次是平台跳跃类,占18.4%;再次是动作冒险类,占9.2%;其余数据分布在多种不同游戏类型之中。

超强操作

实验结果表明,NitroGen在多种不同类型的游戏场景中均表现出较强能力,包括:
* 3D动作游戏中的战斗对抗,
* 2D平台跳跃游戏中的高精度操作,
* 以及程序生成世界中的探索任务。

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

NitroGen 500M模型在不同游戏上的预训练结果

使用Flow-Matching的GR00T架构,在完整的NitroGen数据集上训练了一个5亿参数的统一模型。评估在行为克隆(behavior cloning)预训练完成后进行。对于每一款游戏,研究团队在3个不同任务上进行测试,每个任务执行5次rollout,并统计平均任务完成率。

在未进行任何额外微调的情况下,尽管模型仅基于噪声较大的互联网数据集进行训练,NitroGen仍然能够在多种游戏中完成非平凡(non-trivial)的任务,覆盖了不同的视觉风格(如3D、2D俯视视角、2D横向卷轴)以及多样的游戏类型(平台跳跃、动作RPG、Roguelike等)。

英伟达开源NitroGen:通用游戏AI模型,跨千款游戏零样本操作

后训练实验结果

更重要的是,NitroGen能够有效迁移到从未见过的新游戏。在相同任务设定下,其任务成功率相比从零开始训练的模型,最高可实现52%的相对提升。

通用机器人的基础

NitroGen只是一个起点,模型能力仍有很大的提升空间。研究团队在这次工作中有意只聚焦于无需深度思考、快速反应的「玩家直觉式运动控制」。

据英伟达机器人总监Jim Fan所说,他们的目标是打造通用型具身智能体:不仅能掌握现实世界的物理规律,还能适应一个由无数模拟环境构成的「多元宇宙」中的所有可能物理规则。

这就是为什么许多交互大模型都对电子游戏的操作念念不忘。电子游戏具备了相当完整的世界和交互体系,每个游戏都是一个非常复杂完善的模拟环境,模型能够实现通用的游戏操作,离操作机器人进行真实世界交互也就将更进一步。

英伟达已开源发布该模型的数据集、评测套件以及模型权重,以推动通用具身智能体方向的进一步研究。


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/14156

(0)
上一篇 16小时前
下一篇 14小时前

相关推荐

  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    600
  • 如何使用 Knowledge Graph 和 LLM 构建构建问答系统

    基于模拟 FAQ 文档构建的知识图谱 本文将介绍一个基于知识图谱(使用上一篇文章介绍的方法构建)和大型语言模型(LLM,此处使用 Gemma3-4b-it-qat)的简易问答系统。选择 Gemma3-4b 是因为其模型尺寸适中,可在普通笔记本电脑上运行,且具备出色的指令遵循能力。 我们将以一个虚构智能手机产品的 FAQ 文本为例,复用上一篇文章的代码为其构建…

    2025年11月13日
    500
  • 周末实战:7个可上线级Agentic AI项目,助你打造高含金量作品集

    大家都在谈论自主 AI 智能体,仿佛它们只属于研究实验室和大型科技公司。但事实并非如此。到 2025 年,构建可用于生产环境的 Agentic AI 系统已经变得异常容易——而这正是招聘经理最希望看到的技能。 当其他人还在制作简单的 ChatGPT 封装应用时,你可以构建真正具备决策、工具使用、上下文记忆与协作能力的智能体系统。这些不仅仅是演示,而是能够展示…

    1天前
    1000
  • 告别手动造数据:5款高效生成逼真测试数据的开发者利器

    几乎每位开发者都经历过因缺少数据而测试受阻的时刻。无论是测试一个API、一个表单还是一个数据看板,如果没有足够真实的数据输入,测试结果往往缺乏参考价值。手动编造假邮箱、手机号或地址,对付几行数据尚可,一旦需要成百上千条记录,就会变成一项耗时且枯燥的苦差事。 为了进行有效的测试,我们需要结构化且逼真的应用数据。无论是验证分页逻辑的稳健性,还是观察API在面对混…

    2025年12月5日
    400
  • Claude Opus 4.5突破5小时自主编码极限:AI编码智能体从短跑迈向马拉松的指数级进化

    AI是否已撞上天花板?这份「最重要的图表」直击灵魂:2019-2025年任务时长每几个月翻倍,揭示编码智能体从「短跑选手」向「马拉松冠军」的华丽蜕变。AGI不是梦,而是触手可及的现实! 2025年即将结束,AI领域的真正高手并非谷歌或OpenAI,而是来自Anthropic的王者编程模型——Claude Opus 4.5。 根据METR最新报告,Claude…

    13小时前
    1000