
还记得童年的那个愿望吗?
随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。

彼时,我们只能将这种天马行空的「美梦」寄希望于「次元裂缝」的开启。再后来,增强现实(AR)技术曾一度带来了希望,但几经潮起潮落,结果仍停留在「预先制作的内容叠加」层面,数字角色无法真正感知环境。
而现在已经2026年了,生成式AI、实时渲染、端侧算力、感知模型同时成熟,尤其是Sora展现出的前所未有的世界模拟能力,让大家意识到,虚拟内容不再需要完全预制,可以被实时生成、驱动,并具有物理合理性。技术的狂奔第一次让曾经的「中二梦」,具备了成为现实的可能:你真的可以从屏幕中「召唤」出一只滚球兽。
是不是很神奇?手机镜头对准桌面,选取一张滚球兽照片,下一秒,一只滚球兽就「脱屏而出」,出现在桌面上,四处张望。你伸出手,它刚开始会有点警惕,之后就亲昵地蹭你的手心,你轻轻一捏,它会给出Q弹的物理反馈,而当你把手摊开,它甚至可以被你「托」在掌心之中,就好像,这是一只「活」的滚球兽……通过一个手机摄像头,虚拟角色第一次实现了与现实世界的深度融合。
这就是由初创公司Xmax AI推出的首个虚实融合实时交互视频模型X1。它无需复杂的Prompt,不需要漫长的渲染等待,仅通过手势交互,就能让虚拟世界与现实相连,在镜头中令「幻想」成真,为用户带来实时交互的心流体验。

目前,Xmax AI已通过一款技术演示应用X-cam(开放TestFlight下载),将X1的能力开放给部分用户体验。
「虚实融合+实时交互」:视频生成进入「人人可玩」时代
过去这一年多,AI视频生成领域可以说是遍地开花、神仙打架。
数据显示,2024年全球AI视频生成市场规模已达6.148亿美元,预计到2032年将飙升至25.629亿美元。在市场的强需求推动下,从Sora到Runway,各路玩家都在沿着「更强的生成能力」方向极力狂奔:卷画质、卷时长、卷分辨率……
仔细看下来,整个赛道大多数玩家选择的技术路线依然是文生视频,致力于面向影视、广告等专业领域的创作者,打造更强大的生产力工具。
可不得不承认,在当前的「视频模型军备竞赛」中,普通用户似乎没有参与到狂欢中,感受就是「热闹是他们的,我什么也没有。」
原因很现实。首先是上手难:写出精准的Prompt依然有门槛,且生成等待时间动辄从数秒到数十分钟,缺乏即时反馈的快感。而漫长的等待后,得到的也不过是一段存在于屏幕里「只能看、不能碰」的虚拟视频,与当下日常生活毫无关联。
Xmax AI敏锐地捕捉到了这一点:AI视频生成要想真正走入大众,就不能仅停留在「工具」阶段,必须容易上手,让大众有参与感,能够「玩」起来。
这意味着,在基础视频生成能力之外,行业还需要跨越两座「大山」:一是降低交互门槛,改变依赖专业Prompt撰写的方式;二是要与现实世界结合,满足人们对现实场景的幻想。
基于此,Xmax AI走了一条截然不同的路线:推出首个虚实融合的实时交互视频模型X1,让视频生成告别键盘输入,回归人类最本能的手势与触控,仅需一个手机摄像头,就能打破虚拟与现实的壁垒。
具体来看,基于X1强大的端侧实时生成能力,Xmax AI将这一技术落地为四大核心玩法:次元互动、世界滤镜、触控动图、表情捕手……每一台手机似乎都变成了连接虚实的「魔法棒」。
次元互动:这就是前面视频所展示的能力。手机摄像头拍摄现实场景,任意上传一张角色参考图,就可以将该角色在镜头中「召唤」出来。
比如下面视频中的小兔子,你可以在镜头前伸出手与它互动,捏一捏、拍一拍,甚至将它托到手上。视频中可以看到,当抚摸到兔子眼睛旁位置时,它会跟随人的动作转头,甚至可以看到绒毛因为触碰而遮盖眼睛的情况,没有延迟。因为它所有的物理反应都是X1模型实时生成的,所以看起来就好像真的在抚摸一个真实存在的生命体。
不仅仅是动漫角色,可以说任何自己喜欢的纸片人、宠物、毛绒玩具,都可以在镜头中「活」过来。
世界滤镜:任意上传一张风格参考图,就可以将手机摄像头拍摄的画面实时转换,变成指定的风格,例如梵高画风、乐高画风等。可以用于渲染环境,也可以用于渲染人物,甚至可以用于渲染屏幕内容,像是正在玩的游戏画面。
直接来看一个例子,下面视频中的演示者通过选取不同风格的参考图,让自己「化身」为图片所示风格的人物,可以是经典动漫中的二次元虚拟形象,也可以是乐高积木风格。而且,当演示者做出挥手或摇头动作时,视频中「变身」后的人物会实时跟着做出相应的动作。
触控动图:让静态照片「活」过来、动起来,不再需要复杂软件。对于任意一张照片,都可以在触摸屏上对照片中的角色进行拖拽控制,让它实时运动起来。
比如下面视频中动漫风格的小兔子,左右拖动它的耳朵,它就开始左右摇头;上下挥动,它就做出被拍脑袋的动作;拖动嘴角,它会露出微笑。「实物」也可以,给自家猫咪狗子拍张照上传,就可以让它挥手、抡拳,跳起舞;眨眼、吐舌、卖起萌。就像在操控提线木偶,轻松赋予静止图像以生命力。
表情捕手:将相机镜头对准任意的人或物体,选择一个「大拇指」或「怒气冲冲」的Emoji,AI就会实时「捕捉」对方的特征,生成一个神态精准、魔性十足的动态表情包。这堪称「社交神器」,让聚会冷场成为过去式。
强大能力背后的技术挑战与实现
这些玩法即便对技术不了解,也可以轻松上手。但在业内人士看来,这不仅是产品的创新,更是工程能力的「暴力美学」。
「有趣体验背后,是极高的技术挑战。」要实现上述效果,必须同时解决当前AI行业的三大痛点:
首先是极致实时。从上面的视频可以看出,视频中形象的反应必须随时跟着手势变化,给用户产生「我在和它互动」的感觉,这就要求延迟必须控制在毫秒级。而当前市面上的大多数所谓「实时」模型响应往往需要数秒,难以满足Xmax AI想要的交互效果。
其次是意图理解。Xmax AI希望交互方式多种多样且自然,对普通人门槛足够低,这就要求模型能够自动理解人的意图,并实时生成精准的反馈结果。可当前大多数模型都是文生视频、图生视频,无法实现这些手势交互效果。例如,对于模型来说,当人做出「捏」这个动作时,要读懂其中的意图,远比读懂一段文字困难得多。
另外,还存在数据稀缺的问题。对于整个AI行业来说,高质量数据都至关重要却又极致稀缺,更何况是相对小众的「虚实融合交互数据」,其生产成本高,构造难度极大。但现实是,想要实现好的虚实融合效果就必须基于大量且专业的高质量训练数据。
这些挑战一度让Xmax AI犯了难。
但需要注意的是,Xmax AI是一支既懂底层算法,又懂工程化落地,还拥有敏锐产品嗅觉的团队。
创始人史佳欣出身于华为「天才少年」计划,是一位典型的技术极客。联合创始人梁宸现任港科大(广州)助理教授、博导。联合创始人翁跃庭是一位「六边形战士」型的全栈工程师。公司核心技术团队则来自清华大学 KEG 实验室和 HCI 实验室,是国内大模型与人机交互领域的顶尖力量。
团队核心成员大多曾在字节、快手、华为、阿里等头部 AI 企业历练,拥有丰富的技术落地实践经验。
面对技术挑战,Xmax AI 提出了一套「硬核」的技术方案。
针对极致实时性需求,Xmax AI 进行了架构创新,提出了端到端的流式重渲染视频模型架构,实现了帧级别的自回归 DiT(Diffusion Transformer)。通过多阶段的蒸馏压缩与对抗训练,将每一帧画面的扩散采样速度提升了百倍。这不仅将延迟压低至毫秒级,其自研的「循环回归架构」更打破了时长限制,支持无限时长的连续生成。
针对模型对意图理解的高要求,Xmax AI 构建了统一的交互模型架构,使模型既能理解摄像头透视下的空间三维关系,也能理解屏幕触控下的平面二维操作,从而实现对用户各类交互行为的精准意图识别。
针对「数据荒漠」难题,Xmax AI 搭建了虚实融合数据的合成管线,通过半自动化方式,低成本、批量化地生成了高质量的交互训练数据,构建了独特的行业壁垒。
体验了多种玩法后,不难感知 Xmax AI 的愿景。如果说 Sora 代表了一条极致强化生成能力的路线,让 AI 学会拍电影、构图、运镜与叙事,那么 X1 则希望 AI 能够成为玩伴,随时融入用户周围的生活场景。
从这个角度看,X1 模型对 Xmax AI 团队而言仅仅是一个开始。
从 X1 展现的能力可以看出,Xmax AI 并非旨在「再造」一个专业的视频创作工具或开发一款 App,而是试图搭建下一代内容交互引擎,重新定义用户与 AI 生成内容之间的个性化交互方式。
在他们的愿景中,新时代里,那些曾只存在于影视作品和虚拟世界的角色,无论是数码宝贝还是银翼杀手式的仿生生命体,都可以走进现实,成为虚实融合的「数字生命体」,进入家庭,成为用户的虚拟陪伴或宠物。
与此同时,「万物可交互」将不再只是空想。无论是刷短视频、看直播,还是视频通话、线上会议,都可以实时改变视觉形态,实现一边看一边玩的全新个性化体验。社交互动也将变得更立体、更有趣,摄像头可以化身为「精灵球」,随时随地「捕捉」好友并进行互动装扮。
换言之,Xmax AI 正通过 AI 将「幻想」拉近,近到可以触碰、互动与分享,真正融入人们的日常生活。
正如 Xmax AI 的 Slogan 所言:Play the World through AI(用 AI 玩转世界),让世界触手可「玩」。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/20875
