西风 发自 凹非寺
量子位 | 公众号 QbitAI
近期,世界模型领域成果频出。成立刚满一个月的阿里巴巴ATH(Alibaba Token Hub)事业群,正式发布了其首个主动式实时交互世界模型产品——HappyOyster(快乐生蚝)。

据官方介绍,HappyOyster基于原生多模态架构,是一款支持多模态输入与音视频联合生成的流式生成世界模型。其核心功能围绕四个维度展开:漫游(Wander)、导演(Direct)、创造(Create)与分享(Share)。
漫游功能允许用户通过文本提示(Prompt)生成一个可交互的虚拟场景。例如,输入生成滑雪场景的指令后,用户即可使用键盘方向键实时控制角色移动与镜头视角,沉浸式探索该场景。
导演功能则是一个实时AI视频导演引擎。它改变了传统“输入提示词→等待渲染→获得固定成片”的流程,允许用户在视频生成的任意节点,通过文字指令实时调整镜头、角色或剧情走向,实现“边生成边修改”的交互体验。
创造意味着将体验从“生成一段视频”升级为“创造一个世界”,使用户成为深度参与的创造者。用户最终可以将自己创建的世界进行分享,供他人探索或进行二次创作。
目前,HappyOyster需申请邀请码方可体验。
核心玩法体验
HappyOyster的核心玩法“漫游”与“导演”可通过下图概括:

漫游模式
在漫游模式下,用户可通过文本或图片输入创建世界。系统支持分别设定“角色”与“场景”,并允许自由切换第一人称或第三人称视角。

以下是一个生成海边小镇并探索的示例:
该模式下生成的世界不仅包含场景,还自带背景音乐与动态的非玩家角色(NPC),增强了沉浸感。系统支持自动录制探索过程,视频可在个人主页查看与下载。

目前,漫游模式的分辨率为480p,单次探索时长限制为1分钟。模型同样支持生成像素艺术等特定风格的世界。

HappyOyster的生成速度较快。此外,用户可以在“画廊”中探索其他用户分享的已生成世界。


例如,以下是一个基于梵高油画风格创建的世界:
导演模式
在导演模式下,用户同样可通过文本或图片输入进行创作,并可调整分辨率(720p或480p)、设定叙事风格与情感基调,以及控制运镜方式与画面稳定度。

其核心在于,用户可在视频生成的任何时间点,通过输入新的提示词来实时改变画面内容与剧情走向。
例如,在一个“男孩正在熟睡”的场景中,输入“一只猫跳到了床上,男孩被吵醒”的指令后,画面会随之变化。


以下是其他用户创建的奇幻世界示例,以及来自官方的更多演示:
技术架构与核心突破
阿里ATH事业群同步披露了HappyOyster背后的关键技术。该事业群成立于今年3月,旗下涵盖通义实验室、MaaS业务线等多个部门。
团队表示,HappyOyster的核心能力源于其原生多模态架构与流式生成世界模型,重点突破了三大技术难点:
1. 长时世界建模
模型通过海量长视频数据学习真实世界的运行规律与状态转移逻辑,以实现长时间、高一致性的动态场景生成。针对长时生成易出现的内容漂移问题,团队引入了持续状态复用机制,通过传递历史注意力状态来高效继承已生成信息,从而在流式生成中维持场景结构与动态的连贯性。

2. 实时交互控制响应
模型在建模初期即整合了文本、动作、图像等多种控制信号,使外部指令能持续影响世界演化,而非仅作用于初始条件。这实现了生成质量、长时一致性与实时可控性的协同优化,使模型从“被动生成”升级为“主动模拟与交互”。

为实现实时响应,模型采用流式生成框架,将高维信息映射为紧凑的动态隐状态,大幅降低单步计算开销。控制信号可作为在线注入的条件变量,确保模型无需重置即可实时响应交互。
3. 音视频联合生成
为提升沉浸感,模型采用统一的音视频生成框架,在同一世界状态下同步生成视觉与听觉信号。通过共享条件约束与协同解码机制,保障了音画同步与语义一致性。
团队指出,传统生成式AI停留在“生成像素”阶段,用户在数字世界前如同隔着一道“第四面墙”。HappyOyster的目标正是打破这面墙,生成一个完整、可进入、可交互、可改写的虚拟世界。
产品命名由来
关于产品为何命名为“快乐生蚝”,官方给出了解释:
四百年前,莎士比亚在《温莎的风流娘儿们》中写下:
“The world is your oyster. Open it. (世界是你的牡蛎,等你亲手开启)。”
四百年后,HappyOyster 让这句话首次在字面意义上成为现实:仅需一句描述,即可生成一个完整的、可漫游、可导演、可分享的数字世界。

延伸阅读
– 项目官网:https://www.happyoyster.cn/
– 技术概览:https://www.happyoyster.cn/docs
— 完 —
展望:谁将定义未来的AI?
近期AI智能体(Agent)及相关产品引发广泛关注。
然而,真正具备长期价值的AI创新或许远不止于此。
我们持续关注并记录AI领域的实质性进展。

⚠️ หมายเหตุ: เนื้อหาได้รับการแปลโดย AI และตรวจสอบโดยมนุษย์ หากมีข้อผิดพลาดโปรดแจ้ง
☕ สนับสนุนค่ากาแฟทีมงาน
หากคุณชอบบทความนี้ สามารถสนับสนุนเราได้ผ่าน PromptPay
本文来自网络搜集,不代表คลื่นสร้างอนาคต立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/th/archives/30738
