谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

谷歌世界模型,再一次惊艳了所有人!

今天一早,谷歌 DeepMind 开放了世界模型 Genie 3 的实验性研究原型「Project Genie」,允许用户创建、编辑并探索虚拟世界。

在世界模型 Genie 3 之外,Project Genie 同样由图像生成与编辑模型 Nano Banana Pro 和语言模型 Gemini 提供技术支撑。

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

去年 8 月,谷歌预发布了通用世界模型 Genie 3,它能够生成多样化的交互式环境。在这一早期阶段,受邀测试者们已经创造出了令人印象深刻且极具吸引力的虚拟世界与沉浸式体验,并挖掘出了全新的使用方式。

接下来的目标是构建一个专注于「沉浸式世界创建」的交互式原型,进一步扩大受众范围。因此自即日起,谷歌面向美国 18 岁及以上的 Google AI Ultra 用户开放了 Project Genie 的访问权限。

Project Genie 的多样性玩法

世界模型能够模拟环境的动态变化,并预测环境的演变方式以及动作对环境的影响。与静态 3D 快照中的可探索体验不同,谷歌通用世界模型 Genie 3 会在用户移动并与世界交互时,实时生成前方的路径。

它能够为动态世界模拟出物理效果和交互,并且其突破性的一致性使得模拟任何现实场景成为可能,从机器人技术、动画建模和小说创作,到地点探索和历史场景还原。

如今,在 Genie 3、Nano Banana Pro 和 Gemini 等三大模型的支持下,Project Genie 具备了以下三大核心能力:

首先是,世界草绘(World sketching)。
通过文本提示词以及生成或上传的图片,用户即可创建一个生动且不断扩张的环境。用户可以创建自己的角色和世界,并定义自己想要的探索方式,比如行走、骑行、飞行或者驾驶,等等。

为了实现更精准的控制,谷歌将「世界草绘」与 Nano Banana Pro 进行了整合。这样一来,用户在正式进入世界之前,可以预览世界的样貌并修改图像以进行微调。用户还可以定义角色的视角(第一人称或第三人称),在进入场景前掌控自己的视觉体验。

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

其次是,世界探索(World exploration)。
用户创建的世界是一个等待探索的可导航环境。在移动时,Project Genie 会根据用户采取的行动实时生成前方路径。在穿行过程中,用户还可以调整相机视角。

最后是,世界重混(World remixing)。
通过在原有提示词的基础上进行创作,将现有世界重混成新的演绎版本。用户也可以在画廊或「随机生成」图标中探索精选世界以获取灵感,并在此基础上继续构建。完成后,用户可以下载关于自己的世界和探索过程的视频。

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

不过目前,谷歌也承认,Genie 3 仍处于早期研究阶段, 以下几个方面需要进一步改进:
* 生成的世界可能看起来并不完全逼真,或者并不总是能严格遵循提示词、图像或现实世界的物理规律;
* 角色有时可能不太受控,或者在控制上存在较高的延迟;
* 生成内容的时长限制在 60 秒以内;
* 此前宣布的部分 Genie 3 功能(例如在探索时改变世界的提示事件「promptable events」)尚未包含在此原型中。

第一手体验出炉

谷歌开放 Project Genie,终于让更多用户亲身体验到了世界模型 Genie 3 的「AI 生万物」。

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

已经上手的 Ultra 用户纷纷晒出了自己的作品,给予了不错的评价。

「刚刚用 Genie 3 做出了我的第一款 AI 游戏。提示词:一位法国女子必须攀越一个违背逻辑的世界,到处都是飞行物体。这会是游戏行业的终结吗?」

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

「Genie 3 能运行《毁灭战士》(Doom)吗?看它生成的《毁灭战士》,墙壁全是由同样在运行《毁灭战士》的屏幕组成;主角是《毁灭战士》里的陆战队员,但他的头也是一个正在运行《毁灭战士》的屏幕。」

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

「Genie 3 在建模和物理模拟方面是一个巨大的飞跃,但仍存在一些待解决的问题,比如一只头顶着鸭子的水獭飞行员正走在一家罗斯科(Rothko)风格的机场里;以及一只穿着翼装的水獭正飞越一座充满哥特式塔楼的城市。」

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成
谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

「看 Genie 3 生成的人物是怎么打开车门的,这简直太令人震撼了。」

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成

「画面提示词为:一个男人正沿着好莱坞大道漫步。不仅能控制这个男人的动作,还能实时操控相机的视角。」

谷歌开放世界模型Genie 3:AI游戏创作门槛归零,沉浸式虚拟世界一键生成


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19708

(0)
上一篇 2026年1月30日 下午2:40
下一篇 2026年1月30日 下午4:27

相关推荐

  • 摩尔线程科创板上市:国产GPU的里程碑与AI智算战略转型深度解析

    2024年11月28日,中国半导体产业迎来标志性事件——摩尔线程正式登陆科创板,成为“国产通用GPU第一股”。这不仅是一次资本市场的成功,更是中国在高性能计算芯片领域自主创新战略的重要突破。开盘价650元,较发行价114.28元暴涨469%,市值突破3055亿元,这一系列数字背后,折射出市场对国产GPU技术路径与商业前景的强烈信心。 从技术演进视角分析,摩尔…

    2025年12月5日
    17900
  • 驯服GPU集群中的“吵闹邻居”:MIT等高校提出轻量级控制器,实现可预测LLM服务,TTFT p99降低10-15%

    关键词:GPU 多租户、LLM 服务、SLO 合规、PCIe 感知放置、动态 MIG、TTFT 在如今大模型(LLM)服务无处不在的时代,无论是智能助手、代码生成还是实时翻译,用户都期望获得快速、稳定的响应。然而,在共享的 GPU 集群上部署这些服务时,一个普遍而棘手的问题悄然浮现——“吵闹的邻居”效应。 想象一下,你正在参加一场重要的视频会议,而隔壁却在装…

    2026年1月20日
    11800
  • 像素级视觉革命:FG-CLIP 2如何突破多模态模型的细粒度理解瓶颈

    在人工智能的视觉生成领域,我们常常惊叹于大模型创造的绚丽图像,但当涉及具体细节和精确空间关系时,传统模型的局限性便暴露无遗。例如,当要求生成“一只穿红外套的猫,站在一辆蓝色跑车左边,蓝色跑车后面是一辆白色SUV”时,模型往往难以准确理解“后面”这一空间关系,导致生成结果与预期不符。 同样,在搜索“一辆红色的特斯拉,引擎盖上很多鸟粪”这类高度具体的图像时,传统…

    2025年11月5日
    17200
  • AI巨头论战:LeCun与哈萨比斯激辩智能本质,马斯克站队引热议

    一场关于智能本质的激烈辩论正在顶级AI研究者之间展开。 AI三巨头之一、图灵奖得主Yann LeCun近日公开表示: 纯粹就是胡扯(complete BS)。 而诺贝尔奖得主、谷歌DeepMind CEO德米斯·哈萨比斯则毫不留情地回击: LeCun的说法简直是大错特错。 这场论战引发了广泛关注,甚至让社交平台𝕏专门开辟了相关话题板块。 科技企业家埃隆·马斯…

    2025年12月24日
    19200
  • 阿里千问App全球首发AI办事功能:一句话点奶茶背后的全模态理解与AI Coding革命

    总裁现场喊话AI点40杯奶茶,然后骑手送到了!阿里千问这次玩真的。 1月15日,千问App上线超400项AI办事功能,成为全球首个能完成真实生活复杂任务的AI助手。千问App全面接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态业务,在全球首次实现点外卖、买东西、订机票等AI购物功能,并向所有用户开放测试。 同时,千问App“任务助理”开启邀测,包括移动端和网…

    2026年1月15日
    17300