昆仑万维开源SkyReels-V3：多模态视频生成新标杆，虚拟网红时代的技术引擎

AI 网红们在社交平台上混得风生水起。他们手握品牌合作，坐拥百万粉丝，但很多人至今不知这些都是 AI 生成的，依然像追真人明星一样互动、点赞、被种草。

这也难怪有博主直呼：虚拟网红时代已经到来。

现在，昆仑万维也来添了把火，直接把背后的技术开源了。

1 月 29 日，Skywork AI 团队宣布开源 SkyReels-V3 多模态视频生成模型系列。该系列涵盖参考图像转视频、视频延长和音频驱动虚拟形象三大核心能力，在单一建模架构中实现高保真多模态视频生成，达到业界领先水平。

比如，只需一张虚拟主播照片配上音频，就能生成口型精准、表情生动的主播视频：

上传几张素材图，输入文字描述，AI 就能自动编排出一条完整的带货短片：

还能像专业导演一样，为视频设计切入、切出、正反打等电影级转场效果：

| | |
| :—: | :—: |

更关键的是，这次是完全开源。任何有想法的创作者，都能用这套工具快速搭建自己的虚拟 IP，甚至批量生产内容矩阵。

GitHub 链接： https://github.com/SkyworkAI/SkyReels-V3
API 链接（限时免费）：https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar

一手实测

SkyReels-V3 的实际表现到底如何？我们第一时间针对三大核心功能进行了全面测试。

参考图像转视频

这个功能允许用户上传 1-4 张参考图像，配合文本提示词，生成时间连贯、语义一致的视频。参考图像可以是人物、物体或场景，模型会精准保留身份特征、空间构图，并按照提示词编排叙事逻辑。

我们首先测试了电商应用场景。

上传马斯克的照片和小象玩偶图，输入提示词：在温馨的客厅里，马斯克坐在沙发上，微笑着拿起身旁的小象玩偶，然后将玩偶举到镜头前展示，阳光从窗户洒进来，气氛温暖。

生成视频中，即使更换了背景，马斯克面部特征也保持高度一致，未出现扭曲或者「换脸」，动作自然流畅，商品展示角度恰到好处。

我们又上传了手袋商品图和素颜模特照，输入提示词：时尚的都市街头，这个模特拿着 LV 包，展示包的细节和质感。

SkyReels-V3 立马把模特置于车水马龙的都市夜景中，边走边展示产品细节，人物动作优雅，构图也很专业。

我们还尝试上传多张参考图像，让不同人物或物体在指定场景下产生互动。

比如把奥特曼的照片丢给它，再来张酷炫智能眼镜和公园图片，然后下指令：男人戴着智能眼镜在公园里散步。

模型准确识别人物、物体和背景，并根据提示词编排出合理的交互动作。

最近《怪奇物语》热度蹿升，我们上传三名小演员的剧照，外加一张上海外滩图片，输入提示词：这三个人在上海外滩自拍。

SkyReels-V3 能同时处理好几张完全不同的参考图，精准还原人物特征，保证整体风格统一，连服饰发型都完美迁移。生成视频里三个人一起自拍的互动看起来毫不违和，表情特别自然，动作也流畅得很。

视频延长

视频延长功能则可以将输入的视频片段延伸为更长内容，同时保持运动动态、场景结构和视觉风格的一致性。它支持单镜头延长和镜头切换延长两种模式。

镜头延长模式下，我们提供了一段女生开心面对镜头的视频，输入提示词：女孩笑着笑着突然严肃起来，延长 5 秒钟。

这种从开心到严肃的表情过渡需要模型把握好微表情的变化节奏，不能太突兀。SkyReels-V3 对人脸表情动态和情绪演变的理解相当到位，延长过程中女生的面部特征、光影效果和整体视觉风格都没走样。

镜头切换延长模式则更具创意空间。它支持切入、切出、多角度、正反镜头、切离五种专业转场。

具体而言，切入镜头从广角过渡到特写，切出镜头则相反；正反打镜头指的是在对话场景中，从面向一人的镜头切换到面向另一人的镜头；多角度镜头是切换到不同角度来展示当前场景；切离镜头则是过渡到当前场景中的新区域。

就以切入镜头为例。我们上传女杀手狙击的场面，输入提示词「Close-up on the girl’s face as she aims, sweating」。

SkyReels-V3 能够理解 Close-up 这种专业摄影术语，从瞄准动作到面部特写的过渡保持了叙事的连贯性，又通过景别变化增强了画面张力。

虚拟形象模型

虚拟形象模型则可以从单张肖像图和音频片段生成音视频同步的视频，支持分钟级长度和多角色交互。

我们先测试了最基础的单角色虚拟形象。上传肖像照，配上音乐片段，SkyReels-V3 快速生成一段唱歌 MV，人物唇形与音频完全同步，并能保持画面稳定。

泛化能力同样出色。我们测试了真实人物、卡通角色等不同风格，模型都能稳定生成高质量结果。

此外，它还支持多人物互动场景。我们上传了朱迪和尼克在咖啡店喝咖啡的参考图，为每个对话片段配置音频。模型自动识别出图片形象，精准控制每个角色的开口时机，未出现两个角色同时张嘴或者对不上口型的尴尬情况。

技术解读

Skywork AI 团队此次开源，为视频生成领域带来了新的技术选择。该系列模型在单一建模架构中集成了参考图像转视频、视频延长和音频驱动虚拟形象三大核心模块，在保持高保真度的同时实现了多模态的灵活应用。

先说参考图像转视频功能。这一能力的实现建立在三层技术创新之上。在数据构建层面，团队从海量高质量视频数据中筛选具有显著动态运动的素材，随后通过跨帧配对策略连续视频序列中选择参考帧，以确保时间多样性。

团队还利用图像编辑模型进行主体提取、背景补全和语义重写，有效避免了传统方法中常见的「复制粘贴」伪影问题，并通过多层过滤机制保障参考图像质量。

SkyReels-V3 实现了统一的多参考条件策略，能够联合编码视觉和文本信息，支持最多 4 张参考图像的灵活组合。这意味着开发者无需进行显式的手动组合，即可实现复杂的多主体、多元素视频生成。

训练策略方面，模型采用了图像 – 视频混合训练方案，联合利用大规模图像和视频数据集，并通过多分辨率联合优化提升了对不同空间尺度和宽高比的鲁棒性，原生支持多种输出配置。

在涵盖电影电视、电商、广告等场景的 200 对混合测试集上，SkyReels-V3 在参考一致性和视觉质量方面均处于国内领先位置，验证了其技术方案的有效性。

视频延长模块是 SkyReels-V3 技术实力的另一体现。其核心创新在于双模式延长机制的设计。单镜头延长模式实现平滑的镜头继续，保持视角和叙事连贯；镜头切换延长模式则支持切入、切出、多角度、正反镜头、切离等五种专业转场类型，为视频创作提供了电影级的叙事工具。

为支撑这一能力，团队开发了专门的镜头切换检测器，能够自动分析长视频中的镜头转场，识别并分类转场类型，同时支持手动选择，有效构建了高质量的训练数据。

技术实现上，SkyReels-V3 采用了统一的多分段位置编码方案，支持复杂多分段视频延伸的精确运动建模，并通过分层混合训练实现平滑的镜头切换。鲁棒时空建模使其能够有效处理快速运动、多主体交互和场景剧变等复杂情况，确保生成内容的物理可信度和时间连贯性。

该模块支持 480p 和 720p 分辨率，单镜头延长可调节 5 至 30 秒长度，并支持 1:1、3:4、4:3、16:9、9:16 等多种宽高比，为不同应用场景提供了灵活的输出选项。

虚拟形象模型的技术方案则聚焦于音视频精准对齐和关键帧约束生成机制。研究团队开发了专用的音视频对齐训练策略，通过区域掩码建模显式的语音单元与面部运动的对应关系，实现了对多语言、多风格、快速语速的鲁棒性能。关键帧约束生成则通过建立结构重要的关键帧，生成帧间平滑过渡，确保长视频中的角色一致性和自然运动流。

从整体架构来看，SkyReels-V3 的核心优势在于其模块化设计理念。三大功能模块各自经过深度优化，既可以独立使用，也能根据实际需求灵活组合，为不同应用场景提供了充分的适配空间。企业级的数据处理管线确保了生成质量的稳定性，而在推理端，团队融合了蒸馏、量化及算子优化等多项技术，打造出低延迟、高吞吐的推理引擎，使得模型在实际部署中具备更强的可用性。在训练效率方面，SkyReels-V3 采用了极致的显存与计算优化方案，支撑起高分辨率长视频的千卡级稳定高效训练。

SkyReels-V3 选择完全开源，某种程度上反映了 AI 视频生成领域的竞争态势。在 Runway、Pika 等国外产品凭借先发优势占据市场时，国内团队通过开源策略快速建立生态、获取反馈、迭代优化，不失为一种聪明的打法。而这背后的底气，自然源于昆仑万维在视频生成领域的长期技术积累。

早在 2025 年 2 月，昆仑万维就开源了中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1，以及中国首个 SOTA 级别基于视频基座模型的表情动作可控算法 SkyReels-A1。4 月，SkyReels-V2 作为全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型正式发布。随后，SkyReels-A2 带来了可控视频生成框架，SkyReels-A3 则实现了任意时长的全模态音频驱动数字人创作。昆仑万维在视频生成领域的迭代速度和技术深度可见一斑。

除此之外，昆仑天工还自研了包括语言大模型、多模态大模型、SWE 代码大模型、Agent 大模型、视频大模型、3D 大模型、音乐大模型、音频大模型在内的 8 大模型矩阵，并持续开源几十个模型，在多个国际评测中取得开源最优成绩。视频模型只是这个 AI 矩阵中的一环，却是连接文本、图像、音频等多模态能力的关键节点。

此次 SkyReels-V3 的开源，预示着 AI 视频生成的竞争正在进入更激烈的阶段。技术壁垒逐渐被打破，真正的较量也才刚刚开始。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19789

昆仑万维开源SkyReels-V3：多模态视频生成新标杆，虚拟网红时代的技术引擎

一手实测

参考图像转视频

视频延长

虚拟形象模型

技术解读

相关推荐

从破折号到个性化：OpenAI修复ChatGPT标志性符号背后的AI写作进化论

GigaWorld-0：世界模型驱动VLA性能跃升300%，具身智能迈入数据高效新纪元

TOON vs JSON：为LLM优化的结构化数据格式革命

美团LongCat-Flash-Thinking-2601实测：5600亿参数MoE推理模型，免费但响应慢6倍？

开源欧拉发布全球首个超节点操作系统：开启AI时代操作系统新纪元