阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

近期,世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH(Alibaba Token Hub)事业群,正式发布了其首个主动式实时交互世界模型产品——HappyOyster(快乐生蚝)

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

据官方介绍,HappyOyster基于原生多模态架构,是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开:漫游(Wander)、导演(Direct)、创造(Create)与分享(Share)。

漫游功能允许用户通过文本提示(Prompt)生成一个可交互的虚拟场景。例如,输入生成滑雪场景的指令后,用户即可使用键盘方向键实时控制角色移动与镜头视角,沉浸式探索该场景。

导演功能则是一个实时AI视频导演引擎。它改变了传统“输入提示词→等待渲染→获得固定成片”的流程,允许用户在视频生成的任意节点,通过文字指令实时调整镜头、角色或剧情走向,实现“边生成边修改”的交互体验。

创造意味着将体验从“生成一段视频”升级为“创造一个世界”,使用户成为深度参与的创造者。用户最终可以将自己创建的世界进行分享,供他人探索或进行二次创作。

目前,HappyOyster需申请邀请码方可体验。

核心玩法体验

HappyOyster的核心玩法“漫游”与“导演”可通过下图概括:

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

漫游模式

在漫游模式下,用户可通过文本或图片输入创建世界。系统支持分别设定“角色”与“场景”,并允许自由切换第一人称或第三人称视角。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

以下是一个生成海边小镇并探索的示例:

该模式下生成的世界不仅包含场景,还自带背景音乐与动态的非玩家角色(NPC),增强了沉浸感。系统支持自动录制探索过程,视频可在个人主页查看与下载。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

目前,漫游模式的分辨率为480p,单次探索时长限制为1分钟。模型同样支持生成像素艺术等特定风格的世界。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

HappyOyster的生成速度较快。此外,用户可以在“画廊”中探索其他用户分享的已生成世界。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元
阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

例如,以下是一个基于梵高油画风格创建的世界:

导演模式

在导演模式下,用户同样可通过文本或图片输入进行创作,并可调整分辨率(720p或480p)、设定叙事风格与情感基调,以及控制运镜方式与画面稳定度。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

其核心在于,用户可在视频生成的任何时间点,通过输入新的提示词来实时改变画面内容与剧情走向。

例如,在一个“男孩正在熟睡”的场景中,输入“一只猫跳到了床上,男孩被吵醒”的指令后,画面会随之变化。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元
阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

以下是其他用户创建的奇幻世界示例,以及来自官方的更多演示:

技术架构与核心突破

阿里ATH事业群同步披露了HappyOyster背后的关键技术。该事业群成立于今年3月,旗下涵盖通义实验室、MaaS业务线等多个部门。

团队表示,HappyOyster的核心能力源于其原生多模态架构流式生成世界模型,重点突破了三大技术难点:

1. 长时世界建模
模型通过海量长视频数据学习真实世界的运行规律与状态转移逻辑,以实现长时间、高一致性的动态场景生成。针对长时生成易出现的内容漂移问题,团队引入了持续状态复用机制,通过传递历史注意力状态来高效继承已生成信息,从而在流式生成中维持场景结构与动态的连贯性。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

2. 实时交互控制响应
模型在建模初期即整合了文本、动作、图像等多种控制信号,使外部指令能持续影响世界演化,而非仅作用于初始条件。这实现了生成质量、长时一致性与实时可控性的协同优化,使模型从“被动生成”升级为“主动模拟与交互”。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

为实现实时响应,模型采用流式生成框架,将高维信息映射为紧凑的动态隐状态,大幅降低单步计算开销。控制信号可作为在线注入的条件变量,确保模型无需重置即可实时响应交互。

3. 音视频联合生成
为提升沉浸感,模型采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号。通过共享条件约束与协同解码机制,保障了音画同步与语义一致性。

团队指出,传统生成式AI停留在“生成像素”阶段,用户在数字世界前如同隔着一道“第四面墙”。HappyOyster的目标正是打破这面墙,生成一个完整、可进入、可交互、可改写的虚拟世界。

产品命名由来

关于产品为何命名为“快乐生蚝”,官方给出了解释:

四百年前,莎士比亚在《温莎的风流娘儿们》中写下:

The world is your oyster. Open it. (世界是你的牡蛎,等你亲手开启)。”

四百年后,HappyOyster 让这句话首次在字面意义上成为现实:仅需一句描述,即可生成一个完整的、可漫游、可导演、可分享的数字世界。

阿里发布全球首个主动式实时交互世界模型HappyOyster,开启沉浸式AI创作新纪元

延伸阅读
– 项目官网:https://www.happyoyster.cn/
– 技术概览:https://www.happyoyster.cn/docs


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30737

(0)
上一篇 3小时前
下一篇 3小时前

相关推荐

  • 多智能体协同构建百万级医学推理数据集:ReasonMed如何以高质量数据驱动小模型超越大模型

    在人工智能技术飞速发展的当下,大语言模型在通用领域的推理能力已取得显著突破,然而在医学这类高度专业化、知识密集且容错率极低的垂直领域,模型的推理性能仍面临严峻挑战。一个核心问题浮出水面:复杂的多步推理过程,究竟能否实质性地提升语言模型在医学问答中的准确性与可靠性?要科学地回答这一问题,关键在于构建一个大规模、高质量、且富含严谨推理链的医学数据集。然而,当前医…

    2025年11月3日
    27100
  • React2Shell漏洞遭810万次攻击:云基础设施成黑客掩护,动态防御成关键

    React2Shell 漏洞(CVE-2025-55182)持续遭受利用攻击,自首次泄露以来,威胁行为者已发起超过 810 万次攻击。根据 GreyNoise Observation Grid 数据,自 12 月底达到 43 万次以上的峰值以来,日攻击量已稳定在 30 万至 40 万次会话之间,表明存在持续且协调的利用活动。 该活动的基础设施布局展现出一种复…

    AI产业动态 2026年1月14日
    27800
  • 模型融合新范式:SoCE方法如何通过类别专家加权实现大语言模型性能突破

    在大语言模型(LLM)快速发展的今天,模型训练对算力和时间的依赖已成为制约技术迭代的关键瓶颈。传统的训练方法需要庞大的计算资源和精细的流程设计,而模型融合(Model Souping)作为一种轻量化的替代方案,通过权重平均融合多个同架构模型,在降低成本的同时实现能力互补。然而,传统的均匀平均方法往往忽视了不同任务类别间的性能差异,导致融合效果受限。近期,Me…

    2025年11月21日
    29700
  • 突破GPU瓶颈:d-PLENA NPU架构实现扩散大模型采样2.53倍加速

    关键词:dLLMs、NPU、采样优化、d-PLENA、GEMM 扩散型大语言模型(dLLM)是一种融合了扩散模型迭代去噪特性的大语言模型,可实现并行 Token 生成。但其采样阶段展现出与以通用矩阵乘法(GEMM)为核心的 Transformer 层截然不同的计算特征。 Beyond GEMM-Centric NPUs: Enabling Efficient…

    2026年2月10日
    24600
  • VinciCoder:视觉强化学习突破多模态代码生成瓶颈,开启统一框架新纪元

    长期以来,多模态代码生成领域的发展始终受限于传统监督微调(SFT)范式的固有缺陷。尽管SFT在Chart-to-code等特定任务上取得了显著成果,但其“狭隘的训练范围”从根本上制约了模型的泛化能力,阻碍了通用视觉代码智能的演进。更为关键的是,纯SFT范式在确保代码可执行性和高视觉保真度方面存在结构性瓶颈——模型在训练过程中完全无法感知代码的渲染效果,导致“…

    2025年11月17日
    26200