谷歌开放世界模型Genie 3：AI游戏创作门槛归零，沉浸式虚拟世界一键生成

2026年1月30日下午4:25 • AI产业动态 • 阅读 318

谷歌世界模型，再一次惊艳了所有人！

今天一早，谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」，允许用户创建、编辑并探索虚拟世界。

在世界模型 Genie 3 之外，Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。

去年 8 月，谷歌预发布了通用世界模型 Genie 3，它能够生成多样化的交互式环境。在这一早期阶段，受邀测试者们已经创造出了令人印象深刻且极具吸引力的虚拟世界与沉浸式体验，并挖掘出了全新的使用方式。

接下来的目标是构建一个专注于「沉浸式世界创建」的交互式原型，进一步扩大受众范围。因此自即日起，谷歌面向美国 18 岁及以上的 Google AI Ultra 用户开放了 Project Genie 的访问权限。

Project Genie 的多样性玩法

世界模型能够模拟环境的动态变化，并预测环境的演变方式以及动作对环境的影响。与静态 3D 快照中的可探索体验不同，谷歌通用世界模型 Genie 3 会在用户移动并与世界交互时，实时生成前方的路径。

它能够为动态世界模拟出物理效果和交互，并且其突破性的一致性使得模拟任何现实场景成为可能，从机器人技术、动画建模和小说创作，到地点探索和历史场景还原。

如今，在 Genie 3、Nano Banana Pro 和 Gemini 等三大模型的支持下，Project Genie 具备了以下三大核心能力：

首先是，世界草绘（World sketching）。
通过文本提示词以及生成或上传的图片，用户即可创建一个生动且不断扩张的环境。用户可以创建自己的角色和世界，并定义自己想要的探索方式，比如行走、骑行、飞行或者驾驶，等等。

为了实现更精准的控制，谷歌将「世界草绘」与 Nano Banana Pro 进行了整合。这样一来，用户在正式进入世界之前，可以预览世界的样貌并修改图像以进行微调。用户还可以定义角色的视角（第一人称或第三人称），在进入场景前掌控自己的视觉体验。

其次是，世界探索（World exploration）。
用户创建的世界是一个等待探索的可导航环境。在移动时，Project Genie 会根据用户采取的行动实时生成前方路径。在穿行过程中，用户还可以调整相机视角。

最后是，世界重混（World remixing）。
通过在原有提示词的基础上进行创作，将现有世界重混成新的演绎版本。用户也可以在画廊或「随机生成」图标中探索精选世界以获取灵感，并在此基础上继续构建。完成后，用户可以下载关于自己的世界和探索过程的视频。

不过目前，谷歌也承认，Genie 3 仍处于早期研究阶段，以下几个方面需要进一步改进：
* 生成的世界可能看起来并不完全逼真，或者并不总是能严格遵循提示词、图像或现实世界的物理规律；
* 角色有时可能不太受控，或者在控制上存在较高的延迟；
* 生成内容的时长限制在 60 秒以内；
* 此前宣布的部分 Genie 3 功能（例如在探索时改变世界的提示事件「promptable events」）尚未包含在此原型中。