阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

3小时前 • AI产业动态 • 阅读 25

近期，世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH（Alibaba Token Hub）事业群，正式发布了其首个主动式实时交互世界模型产品——HappyOyster（快乐生蚝）。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

据官方介绍，HappyOyster基于原生多模态架构，是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开：漫游（Wander）、导演（Direct）、创造（Create）与分享（Share）。

漫游功能允许用户通过文本提示（Prompt）生成一个可交互的虚拟场景。例如，输入生成滑雪场景的指令后，用户即可使用键盘方向键实时控制角色移动与镜头视角，沉浸式探索该场景。

导演功能则是一个实时AI视频导演引擎。它改变了传统“输入提示词→等待渲染→获得固定成片”的流程，允许用户在视频生成的任意节点，通过文字指令实时调整镜头、角色或剧情走向，实现“边生成边修改”的交互体验。

创造意味着将体验从“生成一段视频”升级为“创造一个世界”，使用户成为深度参与的创造者。用户最终可以将自己创建的世界进行分享，供他人探索或进行二次创作。

目前，HappyOyster需申请邀请码方可体验。

核心玩法体验

HappyOyster的核心玩法“漫游”与“导演”可通过下图概括：

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

漫游模式

在漫游模式下，用户可通过文本或图片输入创建世界。系统支持分别设定“角色”与“场景”，并允许自由切换第一人称或第三人称视角。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

以下是一个生成海边小镇并探索的示例：

该模式下生成的世界不仅包含场景，还自带背景音乐与动态的非玩家角色（NPC），增强了沉浸感。系统支持自动录制探索过程，视频可在个人主页查看与下载。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

目前，漫游模式的分辨率为480p，单次探索时长限制为1分钟。模型同样支持生成像素艺术等特定风格的世界。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

HappyOyster的生成速度较快。此外，用户可以在“画廊”中探索其他用户分享的已生成世界。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

例如，以下是一个基于梵高油画风格创建的世界：

导演模式

在导演模式下，用户同样可通过文本或图片输入进行创作，并可调整分辨率（720p或480p）、设定叙事风格与情感基调，以及控制运镜方式与画面稳定度。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

其核心在于，用户可在视频生成的任何时间点，通过输入新的提示词来实时改变画面内容与剧情走向。

例如，在一个“男孩正在熟睡”的场景中，输入“一只猫跳到了床上，男孩被吵醒”的指令后，画面会随之变化。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

以下是其他用户创建的奇幻世界示例，以及来自官方的更多演示：

技术架构与核心突破

阿里ATH事业群同步披露了HappyOyster背后的关键技术。该事业群成立于今年3月，旗下涵盖通义实验室、MaaS业务线等多个部门。

团队表示，HappyOyster的核心能力源于其原生多模态架构与流式生成世界模型，重点突破了三大技术难点：

1. 长时世界建模
模型通过海量长视频数据学习真实世界的运行规律与状态转移逻辑，以实现长时间、高一致性的动态场景生成。针对长时生成易出现的内容漂移问题，团队引入了持续状态复用机制，通过传递历史注意力状态来高效继承已生成信息，从而在流式生成中维持场景结构与动态的连贯性。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

2. 实时交互控制响应
模型在建模初期即整合了文本、动作、图像等多种控制信号，使外部指令能持续影响世界演化，而非仅作用于初始条件。这实现了生成质量、长时一致性与实时可控性的协同优化，使模型从“被动生成”升级为“主动模拟与交互”。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

为实现实时响应，模型采用流式生成框架，将高维信息映射为紧凑的动态隐状态，大幅降低单步计算开销。控制信号可作为在线注入的条件变量，确保模型无需重置即可实时响应交互。

3. 音视频联合生成
为提升沉浸感，模型采用统一的音视频生成框架，在同一世界状态下同步生成视觉与听觉信号。通过共享条件约束与协同解码机制，保障了音画同步与语义一致性。

团队指出，传统生成式AI停留在“生成像素”阶段，用户在数字世界前如同隔着一道“第四面墙”。HappyOyster的目标正是打破这面墙，生成一个完整、可进入、可交互、可改写的虚拟世界。

产品命名由来

关于产品为何命名为“快乐生蚝”，官方给出了解释：

四百年前，莎士比亚在《温莎的风流娘儿们》中写下：

“The world is your oyster. Open it. （世界是你的牡蛎，等你亲手开启）。”

四百年后，HappyOyster 让这句话首次在字面意义上成为现实：仅需一句描述，即可生成一个完整的、可漫游、可导演、可分享的数字世界。

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

延伸阅读
– 项目官网：https://www.happyoyster.cn/
– 技术概览：https://www.happyoyster.cn/docs

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/30737

阿里发布全球首个主动式实时交互世界模型HappyOyster，开启沉浸式AI创作新纪元

核心玩法体验

漫游模式

导演模式

技术架构与核心突破

产品命名由来

相关推荐

多智能体协同构建百万级医学推理数据集：ReasonMed如何以高质量数据驱动小模型超越大模型

React2Shell漏洞遭810万次攻击：云基础设施成黑客掩护，动态防御成关键

模型融合新范式：SoCE方法如何通过类别专家加权实现大语言模型性能突破

突破GPU瓶颈：d-PLENA NPU架构实现扩散大模型采样2.53倍加速

VinciCoder：视觉强化学习突破多模态代码生成瓶颈，开启统一框架新纪元