昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

AI 网红们在社交平台上混得风生水起。他们手握品牌合作,坐拥百万粉丝,但很多人至今不知这些都是 AI 生成的,依然像追真人明星一样互动、点赞、被种草。

这也难怪有博主直呼:虚拟网红时代已经到来。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

现在,昆仑万维也来添了把火,直接把背后的技术开源了。

1 月 29 日,Skywork AI 团队宣布开源 SkyReels-V3 多模态视频生成模型系列。该系列涵盖参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力,在单一建模架构中实现高保真多模态视频生成,达到业界领先水平。

比如,只需一张虚拟主播照片配上音频,就能生成口型精准、表情生动的主播视频:

上传几张素材图,输入文字描述,AI 就能自动编排出一条完整的带货短片:

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

还能像专业导演一样,为视频设计切入、切出、正反打等电影级转场效果:

| 昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎 | 昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎 |
| :—: | :—: |

更关键的是,这次是完全开源。任何有想法的创作者,都能用这套工具快速搭建自己的虚拟 IP,甚至批量生产内容矩阵。

  • GitHub 链接: https://github.com/SkyworkAI/SkyReels-V3
  • API 链接(限时免费):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar

一手实测

SkyReels-V3 的实际表现到底如何?我们第一时间针对三大核心功能进行了全面测试。

参考图像转视频

这个功能允许用户上传 1-4 张参考图像,配合文本提示词,生成时间连贯、语义一致的视频。参考图像可以是人物、物体或场景,模型会精准保留身份特征、空间构图,并按照提示词编排叙事逻辑。

我们首先测试了电商应用场景。

上传马斯克的照片和小象玩偶图,输入提示词:在温馨的客厅里,马斯克坐在沙发上,微笑着拿起身旁的小象玩偶,然后将玩偶举到镜头前展示,阳光从窗户洒进来,气氛温暖。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

生成视频中,即使更换了背景,马斯克面部特征也保持高度一致,未出现扭曲或者「换脸」,动作自然流畅,商品展示角度恰到好处。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

我们又上传了手袋商品图和素颜模特照,输入提示词:时尚的都市街头,这个模特拿着 LV 包,展示包的细节和质感。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

SkyReels-V3 立马把模特置于车水马龙的都市夜景中,边走边展示产品细节,人物动作优雅,构图也很专业。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

我们还尝试上传多张参考图像,让不同人物或物体在指定场景下产生互动。

比如把奥特曼的照片丢给它,再来张酷炫智能眼镜和公园图片,然后下指令:男人戴着智能眼镜在公园里散步。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

模型准确识别人物、物体和背景,并根据提示词编排出合理的交互动作。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

最近《怪奇物语》热度蹿升,我们上传三名小演员的剧照,外加一张上海外滩图片,输入提示词:这三个人在上海外滩自拍。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

SkyReels-V3 能同时处理好几张完全不同的参考图,精准还原人物特征,保证整体风格统一,连服饰发型都完美迁移。生成视频里三个人一起自拍的互动看起来毫不违和,表情特别自然,动作也流畅得很。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

视频延长

视频延长功能则可以将输入的视频片段延伸为更长内容,同时保持运动动态、场景结构和视觉风格的一致性。它支持单镜头延长和镜头切换延长两种模式。

镜头延长模式下,我们提供了一段女生开心面对镜头的视频,输入提示词:女孩笑着笑着突然严肃起来,延长 5 秒钟。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

这种从开心到严肃的表情过渡需要模型把握好微表情的变化节奏,不能太突兀。SkyReels-V3 对人脸表情动态和情绪演变的理解相当到位,延长过程中女生的面部特征、光影效果和整体视觉风格都没走样。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

镜头切换延长模式则更具创意空间。它支持切入、切出、多角度、正反镜头、切离五种专业转场。

具体而言,切入镜头从广角过渡到特写,切出镜头则相反;正反打镜头指的是在对话场景中,从面向一人的镜头切换到面向另一人的镜头;多角度镜头是切换到不同角度来展示当前场景;切离镜头则是过渡到当前场景中的新区域。

就以切入镜头为例。我们上传女杀手狙击的场面,输入提示词「Close-up on the girl’s face as she aims, sweating」。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

SkyReels-V3 能够理解 Close-up 这种专业摄影术语,从瞄准动作到面部特写的过渡保持了叙事的连贯性,又通过景别变化增强了画面张力。

昆仑万维开源SkyReels-V3:多模态视频生成新标杆,虚拟网红时代的技术引擎

虚拟形象模型

虚拟形象模型则可以从单张肖像图和音频片段生成音视频同步的视频,支持分钟级长度和多角色交互。

我们先测试了最基础的单角色虚拟形象 。上传肖像照,配上音乐片段,SkyReels-V3 快速生成一段唱歌 MV,人物唇形与音频完全同步,并能保持画面稳定。

泛化能力同样出色。我们测试了真实人物、卡通角色等不同风格,模型都能稳定生成高质量结果。

此外,它还支持多人物互动场景。我们上传了朱迪和尼克在咖啡店喝咖啡的参考图,为每个对话片段配置音频。模型自动识别出图片形象,精准控制每个角色的开口时机,未出现两个角色同时张嘴或者对不上口型的尴尬情况。

技术解读

Skywork AI 团队此次开源,为视频生成领域带来了新的技术选择。该系列模型在单一建模架构中集成了参考图像转视频、视频延长和音频驱动虚拟形象三大核心模块,在保持高保真度的同时实现了多模态的灵活应用。

先说参考图像转视频功能。这一能力的实现建立在三层技术创新之上。在数据构建层面,团队从海量高质量视频数据中筛选具有显著动态运动的素材,随后通过跨帧配对策略连续视频序列中选择参考帧,以确保时间多样性。

团队还利用图像编辑模型进行主体提取、背景补全和语义重写,有效避免了传统方法中常见的「复制粘贴」伪影问题,并通过多层过滤机制保障参考图像质量。

SkyReels-V3 实现了统一的多参考条件策略,能够联合编码视觉和文本信息,支持最多 4 张参考图像的灵活组合。这意味着开发者无需进行显式的手动组合,即可实现复杂的多主体、多元素视频生成。

训练策略方面,模型采用了图像 – 视频混合训练方案,联合利用大规模图像和视频数据集,并通过多分辨率联合优化提升了对不同空间尺度和宽高比的鲁棒性,原生支持多种输出配置。

在涵盖电影电视、电商、广告等场景的 200 对混合测试集上,SkyReels-V3 在参考一致性和视觉质量方面均处于国内领先位置,验证了其技术方案的有效性。

视频延长模块是 SkyReels-V3 技术实力的另一体现。其核心创新在于双模式延长机制的设计。单镜头延长模式实现平滑的镜头继续,保持视角和叙事连贯;镜头切换延长模式则支持切入、切出、多角度、正反镜头、切离等五种专业转场类型,为视频创作提供了电影级的叙事工具。

为支撑这一能力,团队开发了专门的镜头切换检测器,能够自动分析长视频中的镜头转场,识别并分类转场类型,同时支持手动选择,有效构建了高质量的训练数据。

技术实现上,SkyReels-V3 采用了统一的多分段位置编码方案,支持复杂多分段视频延伸的精确运动建模,并通过分层混合训练实现平滑的镜头切换。鲁棒时空建模使其能够有效处理快速运动、多主体交互和场景剧变等复杂情况,确保生成内容的物理可信度和时间连贯性。

该模块支持 480p 和 720p 分辨率,单镜头延长可调节 5 至 30 秒长度,并支持 1:1、3:4、4:3、16:9、9:16 等多种宽高比,为不同应用场景提供了灵活的输出选项。

虚拟形象模型的技术方案则聚焦于音视频精准对齐和关键帧约束生成机制。研究团队开发了专用的音视频对齐训练策略,通过区域掩码建模显式的语音单元与面部运动的对应关系,实现了对多语言、多风格、快速语速的鲁棒性能。关键帧约束生成则通过建立结构重要的关键帧,生成帧间平滑过渡,确保长视频中的角色一致性和自然运动流。

从整体架构来看,SkyReels-V3 的核心优势在于其模块化设计理念。三大功能模块各自经过深度优化,既可以独立使用,也能根据实际需求灵活组合,为不同应用场景提供了充分的适配空间。企业级的数据处理管线确保了生成质量的稳定性,而在推理端,团队融合了蒸馏、量化及算子优化等多项技术,打造出低延迟、高吞吐的推理引擎,使得模型在实际部署中具备更强的可用性。在训练效率方面,SkyReels-V3 采用了极致的显存与计算优化方案,支撑起高分辨率长视频的千卡级稳定高效训练。

SkyReels-V3 选择完全开源,某种程度上反映了 AI 视频生成领域的竞争态势。在 Runway、Pika 等国外产品凭借先发优势占据市场时,国内团队通过开源策略快速建立生态、获取反馈、迭代优化,不失为一种聪明的打法。而这背后的底气,自然源于昆仑万维在视频生成领域的长期技术积累。

早在 2025 年 2 月,昆仑万维就开源了中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1,以及中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。4 月,SkyReels-V2 作为全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型正式发布。随后,SkyReels-A2 带来了可控视频生成框架,SkyReels-A3 则实现了任意时长的全模态音频驱动数字人创作。昆仑万维在视频生成领域的迭代速度和技术深度可见一斑。

除此之外,昆仑天工还自研了包括语言大模型、多模态大模型、SWE 代码大模型、Agent 大模型、视频大模型、3D 大模型、音乐大模型、音频大模型在内的 8 大模型矩阵,并持续开源几十个模型,在多个国际评测中取得开源最优成绩。视频模型只是这个 AI 矩阵中的一环,却是连接文本、图像、音频等多模态能力的关键节点。

此次 SkyReels-V3 的开源,预示着 AI 视频生成的竞争正在进入更激烈的阶段。技术壁垒逐渐被打破,真正的较量也才刚刚开始。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19789

(0)
上一篇 3天前
下一篇 3天前

相关推荐

  • GitHub精选:4款实用开源工具,从年会抽奖到PDF处理一网打尽

    年会抽奖开源项目 推荐两个适用于年会场景的GitHub开源抽奖工具。 log-lottery该项目支持3D标签云效果,可将所有参与者的名字组合成旋转的球体、螺旋或网格,视觉效果颇具科技感。 无需编程知识,通过Excel导入人员名单并在后台简单设置奖项即可使用。项目支持播放抽奖音乐以烘托氛围,抽奖结果可直接导出为Excel文件。 lottery另一个基于 Ex…

    2025年12月10日
    8900
  • React与LangGraph的无缝连接:useAgent Hook实现全栈AI Agent实时交互

    AI agent 正在迅速从令人惊叹的演示演进到大规模的生产级应用,而 LangGraph 让这一转变比以往更顺畅。但在此之前,将这些 agent 连接到前端并为用户提供实时交互,往往需要处理复杂的 API、状态管理,并依赖一定的运气。 现在介绍 useAgent —— 一个简单的 React Hook,能让你的前端直接连接到 LangGraph agent…

    2026年1月17日
    7600
  • 5个GitHub开源项目助你副业变现百万:从一人企业到独立开发实战指南

    一人企业方法论 开源项目《一人企业方法论》目前已更新至第二版,专为希望独立创业或开展副业的个人提供实用指导。无论你是从事自媒体、电商还是数字商品,即使没有技术背景,也能从中获得启发。 该项目的核心思想倡导一种以个人为核心、精益化且可持续的商业模式。它不追求规模化增长和资本驱动,而是专注于利用现代技术工具与系统化方法论,帮助个人独立构建并运营一个健康、盈利的微…

    2025年11月12日
    7400
  • PaddleOCR-VL-1.5:0.9B参数超越GPT-5.2,异形文档识别新标杆

    现阶段,互联网上的公开文本数据已被大模型消耗殆尽,高质量文本数据趋于枯竭,AI 的发展面临瓶颈。 要进一步迭代优化,就必须从真实世界中获取更多高质量数据。海量的学术论文、复杂的金融报表、尘封的历史档案等非结构化文档蕴含着极高密度的专业知识,却因物理形态的阻隔,难以被 AI 有效利用。 因此,未来的 OCR 文字识别技术,或将成为向 AI 输送高质量「数据燃料…

    2天前
    300
  • 清华开源!GitHub 4600星RAG神器UltraRAG 3.0发布:告别黑盒开发,推理逻辑全透明

    这个名为 UltraRAG 的开源项目,已在 GitHub 上获得了超过 4600 个 Star。它由清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB、面壁智能与 AI9Stars 等机构联合发布,是首个基于 MCP 的轻量级 RAG 开发框架。其核心在于:通过 YAML 配置逻辑,利用 MCP 构建组件,并通过 UI 打通从“算…

    3天前
    400