Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

开年第一个月,国产AI视频生成领域竞争激烈。

AI视频生成圈迎来重磅发布——全球首个能够一次性直接生成16秒音视频的模型。

例如,用它来制作一段真人版《火影忍者》第四次忍界大战的名场面:

从画面、台词到音效,都颇具原版日漫的风格。

制作这段真人剧的模型,正是生数科技最新推出的Vidu Q3

深度体验后,其核心特点在于高度自动化
* 视频与音频一次性同步生成
* 运镜与转场自由切换,一步到位
* 支持文字和图片作为输入生成音视频
* 生成清晰度支持1080P(后续可提升至4K)
* 具备完整的叙事能力和精准的文字渲染能力

在语言支持上,Vidu Q3同时兼容中文、英文和日文等多种语言。

Vidu Q3的实力也得到了国际权威AI基准测试机构Artificial Analysis的认证。在最新榜单中,Vidu Q3位列中国第一,全球第二,同台竞技的模型包括马斯克xAI的Grok,并超越了Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2。

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

拍剧吗?一张图就够了

在操作上,用户需要在图生视频页面中选择 “Vidu Q3” 模型,该模型可一次性生成1-4个视频。

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

上传首帧图片并输入提示词后,可以选择生成视频的时长,范围从1秒到16秒

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

接下来,我们通过图生音视频的方式,生成一段主播连麦对话的视频,首帧图片和提示词如下:

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

生成效果如下:

效果逼真,宛如从真实直播录像中截取的片段。Vidu Q3不仅一次性输出了16秒的同步音视频,台词与演绎也符合提示词要求。值得注意的是,模型似乎识别到了直播场景,在未加提示的情况下,自动添加了动态弹幕效果。

再用类似方法测试一个短剧场景:一位年轻女性在综艺节目中作为导师,犀利且愤怒地点评参赛选手的演技。

台词的愤怒情绪与面部表情配合到位,足以以假乱真。

测试完现代场景,再尝试一段古装苦情戏:

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

AI的“演技”依旧在线。更细致的是,风声、抽泣声以及抬手、摸脸等动作的音效,都是模型在理解场景后自动补充的,细节表现力强。

最后,测试Vidu Q3在16秒内完成一次性转场与镜头切换的流畅度。首帧图片和提示词如下:

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

生成结果:

Vidu Q3在准确执行提示词要求的转场后,自行添加了背景闪电、仰视恶龙视角等细节。由此可见,无论是视觉效果还是意图理解能力,Vidu Q3都已接近 “为剧而生” 的水平。

为剧而生,一句话也能直出高清音视频

除了图生视频,Vidu Q3仅凭自然语言也能实现类似效果。

文生音视频界面,同样支持1-16秒时长,并额外提供了16:9、9:16、1:1、4:3和3:4五种宽高比选项。

我们尝试仅用提示词生成一段包含镜头切换的英文3D皮克斯风格动画

皮克斯3d动画风格。
分镜一(中景/侧面视角):温暖明亮的背景中,传来衣物摩擦的沙沙声,右侧成年人缓缓蹲下,与左侧小男孩平视。他温和地说:“I know you’re disappointed, buddy. I really am sorry.”手势略微比划,镜头侧拍捕捉着两人之间微妙的距离感。
分镜二(大人视角/小男孩特写):镜头转到成年人身后,对准小男孩的脸。他眼神低垂,嘴角微微下撇,肩膀无力地耸着。背景音乐渐弱,只听见他一声极轻的、压抑的吸鼻子声。镜头缓缓推近,背景柔化,将失望与无奈的情绪张力拉满。

整个剧情严格遵循了提示词的指示。

将风格切换为国产修仙动漫,只需稍改场景和台词:

Vidu Q3:中国AI视频新王者,全球首个16秒音视频直出模型震撼发布

这表明,Vidu Q3能够支持不同风格短剧、漫剧的“迁移学习”与批量生产。

此外,Vidu Q3的文生视频还有一个实用功能——高质量文字渲染。这能避免后期二次加工,实现一次性成片。

测试提示词如下:

伴随着紧张的电子鼓点,《黑客帝国》风格的“0”和“1”数字铺满屏幕,瞬间形成“Vidu”的字样。细节丰富,质感饱满,极具视觉冲击力。

芭提雅的沙滩边上,面向大海,阳光明媚,背景音乐轻快。海上的天空有一个直升机拉着横幅飞过。横幅上有“快来玩Vidu”的字样。

总而言之,无论是不同比例、风格,还是人物、场景或文字素材,Vidu Q3的表现已接近影视制作的门槛。

进击的AI视频生成

最后,将视角拉回整个行业的发展历程。

AI视频生成技术每次进化都带来显著突破,这种快速迭代在某种程度上压缩了历史。

回顾电影史,从1895年卢米埃尔兄弟放映《火车进站》(默片),到1927年第一部有声电影问世,人类用了32年

而在AI视频生成领域,从Sora引爆“默片时代”的视觉震撼,到业界实现有声视频直出,这段路程仅用了不到9个月

在Sora 2之前,视频生成模型的竞争焦点主要在于画面的物理一致性、光影质感与运动幅度。那时的AI视频如同精美的“哑剧”,声音常需后期单独处理,存在割裂感。

音视频直出技术的出现,标志着竞争维度升级:从单一的视觉生成,进化到音视频原生的多模态融合。这证明在统一模型架构下,AI不仅能理解物理运动规律,还能把握声音与画面间的时序关联。这种能力已从生成画面,进化到了“导演”剧情。

Vidu Q3的出现,进一步延伸了这种能力:更长时长、更稳定、更连贯。尤其是在16秒时长内实现一镜到底,让AI真正具备了创作完整叙事短片的基础。

当音视频同步不再是障碍,当多语言表达变得容易,AI视频生成的下一个突破性时刻,或许会来得比预期更快。

在AI的世界里,技术迭代的速度正以日计年。

Vidu Q3体验地址:
https://www.vidu.cn

Vidu API地址:
https://platform.vidu.cn


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/19620

(0)
上一篇 2026年1月30日 下午6:43
下一篇 2026年1月30日 下午7:08

相关推荐

  • 国产AI算力池迈入规模化落地新纪元:3万卡超集群开启千行百业应用新时代

    国内智算基础设施迈过关键分水岭 2月5日,由中科曙光提供的3套scaleX万卡超集群,在国家超算互联网核心节点同时上线试运行。由此,全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池正式形成。 过去,万卡集群更像是头部玩家的实力勋章。如今,当万卡规模的算力开始实现“多套并行、同时落地、即刻应用”,国产超集群便跨过了单点突破的阶段,正式步入规模化落地的…

    2026年2月6日
    32200
  • 从TNT到AutoGLM:开源GUI Agent如何重塑人机交互与隐私边界

    在科技发展的长河中,某些超前的构想往往因时代局限而被视为激进的赌博,却在未来某个节点以更成熟的形式重新定义行业。七年前,锤子科技推出的TNT(Touch & Talk)系统,试图通过触控与语音结合的方式“重新定义个人电脑”,却因当时AI技术的不成熟而沦为科技圈的“永生梗”。然而,在2025年的今天,随着大模型与智能体技术的爆发,我们惊讶地发现:TNT…

    2025年12月10日
    40900
  • 智源研究院:以“安卓”模式破局具身智能数据孤岛,引领行业生态共建新范式

    在2025年智源具身智能Open Day活动中,一场被业界称为“具身武林大会”的盛会,罕见地聚集了银河通用、智元、星海图、自变量、原力灵机、加速进化、北京人形、星源智、优必选、因时、软通天擎等机器人领域的主要厂商代表。这一现象背后,折射出当前具身智能产业面临的核心挑战与转型契机。 智源研究院院长王仲远在会上提出的“数据贡献与模型效用正向关联”机制,直指行业长…

    2025年11月21日
    32600
  • Meta的AI战略转型:内部冲突、资源博弈与科技巨头的历史轮回

    随着扎克伯格将公司战略重心从「元宇宙」全面转向人工智能,Meta正经历着自成立以来最深刻的结构性变革。这一转变不仅涉及数十亿美元的资源重新分配,更引发了公司内部在战略方向、文化理念和资源优先级上的激烈博弈。本文将从多个维度深入分析Meta当前面临的挑战、转型逻辑及其在科技巨头竞争格局中的独特处境。 今年,扎克伯格对Meta的人工智能业务进行了彻底重组,并以约…

    2025年12月12日
    44700
  • SGLang Model Gateway 0.2:一体化AI原生编排解决方案的突破性实践

    在AI模型部署与推理的复杂生态中,尽管市场上涌现了众多GPU内核优化、推理引擎加速项目以及从传统云原生演进而来的AI网关工具,但真正实现一体化、原生AI编排的解决方案却长期处于空白状态。实际生产环境中,开发者往往需要自行整合多个组件,形成效率低下、维护困难的“缝合怪”系统。Oracle与SGLang团队敏锐地捕捉到这一痛点,近期推出了生产就绪的SGLang …

    2025年10月25日
    44200