昆仑天工SkyReels-V3开源：多模态视频生成新标杆，开启AI创作新纪元

昆仑天工开源SkyReels-V3：多模态视频生成模型实现技术突破

近日，昆仑天工正式宣布开源其多模态视频生成模型 SkyReels-V3。该模型在文生视频、图生视频、视频延长及虚拟形象生成等多个维度展现出强大能力，致力于解决AI生成视频内容在真实性、连贯性与物理合理性方面的长期挑战。

多模态生成能力实测

SkyReels-V3支持从图像生成动态视频。以下测试中，模型根据两张人物参考图，成功生成了符合“在雪中推销霉豆腐”文本描述的视频片段。

|
—|—

视频中人物特征还原准确，手部动作流畅，背景飘雪与行人等动态细节也得到了自然呈现。

模型同样能处理复杂的多对象交互指令。例如，根据“猫咪指向纸巾”的提示及多张参考图，生成的视频不仅准确完成了互动任务，还包含了额外的连贯动作。

| |
—|—|—

在基于名人图像生成“舞台争论”场景的测试中，模型展现了良好的角色一致性与动态生成能力。

| |
—|—|—

视频延长与专业编辑

SkyReels-V3的视频延长功能支持两种模式：
* 单镜头延长：保持镜头平滑连续。
* 镜头切换延长：支持切入、切出、多角度等专业转场效果。

用户可灵活调节输出视频的分辨率（如480P、720P）、时长（5-30秒）及画幅比例（如16:9、9:16等）。

官方示例展示了单镜头延长的效果，画面色彩与动作过渡连贯。

镜头切换延长示例则体现了模型在理解原场景语义基础上，进行合理场景想象与切换的能力。

虚拟形象与长视频生成

模型的虚拟形象生成功能不限于单人数字人，可支持多角色对话、卡通风格及复杂口型同步。

此外，模型能够生成分钟级别的长视频，并保持内容的连贯性与叙事流畅度。

核心技术解析

SkyReels-V3针对当前AI视频生成普遍存在的“不真”问题——如高质量数据稀缺、时空连贯性不足、缺乏物理规律理解——提出了系统性解决方案。

模型采用 “一核多支” 架构，以一个统一的多模态上下文学习（Multi-modal In Context Learning） 预训练框架为基座，针对不同子任务进行差异化精调。

1. 参考图像视频生成

为提升角色与场景一致性，技术路径包含三个关键步骤：
* 精细化数据构建：通过筛选高动态视频片段、采用跨帧配对策略构建训练数据，并利用图像编辑技术进行主体提取与背景重构，以消除视觉伪影。
* 多参考条件融合：支持最多4张参考图像同时输入，实现对人物、场景、服装等多维度细节的精准控制，无需依赖冗长复杂的文本指令。
* 混合训练策略：结合图像-视频混合训练与多分辨率联合优化，使模型兼具高分辨率细节与视频动态逻辑，并增强对不同画幅的鲁棒性。

2. 视频语义延长

该功能超越了简单的帧补全，实现了智能语义理解。模型能够解读前序镜头的剧情与逻辑，并根据用户提示词，主动生成符合叙事发展的后续镜头，同时可应用专业的剪辑转场手法。

这主要归功于两大技术突破：

（1）统一多分段位置编码
在多段不同视角的视频中，借助统一的编码系统，确保物体在不同镜头间的运动符合逻辑；分层混合训练让模型学习切镜时机和方法，以实现转场时的镜头平滑切换。

（2）鲁棒时空建模
该步骤让模型在面对快速运动（如赛车）、多主体交互（如多人格斗）、场景剧变（如从光线差的室内转向室外）等极端情况时，依旧能维持物体形状和位置，同时确保视频始终遵循现实世界的物理规律和视觉连贯性。

总的来说，这两项技术赋予SkyReels-V3导演思维，让画面调度更精细，故事内容更具叙事张力。

音频参考任务

SkyReels-V3虚拟形象模型能够基于单张参考图和音频，生成音视频同步的高清视频，不仅支持人物嘴部和音频对齐、多角色交互，还支持分钟级长视频生成。

这也是业内首个支持单镜头多人多轮对话的数字人模型，具体技术依赖于：

（1）精准音视频对齐
SkyReels-V3改变了以往“全图对口型”的方式，通过区域路由机制实现了精准控制。用户可以指定画面中的某个特定角色说话，然后将不同角色的音频按顺序排列，生成自然的对话过程。
其次，借助专用音视频对齐训练策略、语音单元与面部区域的显式建模，确保嘴型在不同语速、语言、风格下的鲁棒性。

（2）关键帧约束生成
由于直接生成长视频会导致显存爆炸或逻辑崩坏，SkyReels-V3采用了先骨架后填充的策略。
先通过构建等间隔的关键帧，确定视频的大致动作框架；再以关键帧和实时音频作为约束，分段填充中间帧，实现平滑过渡；最后调节给定参考图的位置编码（即它与关键帧的距离），来灵活控制动作幅度。

这种方式体现在评测指标上，同分辨率场景下，SkyReels-V3在画面质量和一致性上均接近主流闭源SOTA模型，具备显著优势。

值得注意的是，以上全部技术均已开源，且三大任务模块之间相互独立，用户可根据自身需求自由组合。

为什么是昆仑天工？

AI视频生成领域已从单纯的技术展示，全面转向追求商业增量的白热化竞争阶段。如果说去年是相关国产模型集体爆发的一年，那么今年则是行业进入深度洗牌的关键时期。

而SkyReels-V3以优秀的多模态能力、角色一致性和可控精度脱颖而出，成为其中尤为亮眼的产品。

这就引出一个问题：为什么是昆仑天工先发制人？

纵观昆仑天工的AGI布局，SkyReels-V3的出现绝非偶然。

从模型层面讲，昆仑天工始终坚持自研技术，围绕MoE架构与多模态技术，逐步迭代形成覆盖通用与垂直场景的模型矩阵。
目前主要包括八大模型：文本、多模态、代码、Agent、视频、世界模型/3D、音乐、音频。

例如：
* 业界首款中文逻辑推理大模型：Skywork 4.0 o1
* 能实现低延迟拟人语音对话：Skywork 4.0 4o
* 在同等规模下比肩DeepSeek-R1：Skywork-OR1
* 国内首个面向AI短剧创作的视频生成模型：SkyReels-V1
* 全面领跑主流评测，收获Kaggle官方推荐：Skywork R1V2
* ……

这足以证明昆仑天工在技术侧的强劲发力：一方面利用模型架构创新降低推理成本，另一方面通过在垂直领域追求行业顶尖水准，建立起差异化生态优势。

从产品层面讲，依托坚实的大模型技术，昆仑天工兼顾C端普惠与B端定制，打造了天工超级智能体、AI音乐创作平台Mureka、AI社交Linky等代表性应用。

其中，天工超级智能体定位为AI办公赋能，依靠5个专家智能体（文档、PPT、表格、网页、播客）和1个通用智能体，可在5分钟内生成30页PPT，大幅提升工作效率，带来“所见即所得”的高效智能体验。自5月发布后，天工超级智能体在后续迭代中不断追加智能体、升级功能，已成为Office Agent领域不可忽视的新兴力量。

而AI音乐Mureka、AI社交Linky也在海外反响热烈。
Mureka自2025年3月起，累计新增全球注册用户近700万，服务超100个国家和地区，最新发布的Mureka V8更是一举超越Suno V5，登顶垂类世界第一。
Linky作为全球出海TOP3的社交陪伴平台，在2024年强势达成单月最高收入突破100万美元的成绩，是海外增长最快的中国AI社交应用之一。

依托深厚的技术积累，昆仑天工近年陆续推出了面向不同人群的针对性产品，例如对上班族讲效率，对Z世代讲娱乐，几乎所有人都能在昆仑天工找到契合自身的AI应用。

这正是昆仑天工的优势所在：长期敏锐洞察市场的同时，也得益于开源积累了一批忠实用户，构建起“技术-用户-社区”的正向可持续循环。用户的积极反馈能持续反哺产品创新，使得昆仑天工的产品生命周期长、商业效果好、技术变现快。

综合来看，昆仑天工打通了技术到产品的转化链路，强技术驱动好产品，好产品迅速盈利回馈技术研发，并沿着这条主线逐步外扩，形成了由大模型、搜索、游戏、音乐、社交、短剧组成的多元AI业务矩阵。

事实证明，这条由点及面的扩张路径颇有成效，昆仑天工已经抢先交出了答卷。

GitHub链接：https://github.com/SkyworkAI/SkyReels-V3
API链接（限时免费）：https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19830

昆仑天工SkyReels-V3开源：多模态视频生成新标杆，开启AI创作新纪元

昆仑天工开源SkyReels-V3：多模态视频生成模型实现技术突破

多模态生成能力实测

视频延长与专业编辑

虚拟形象与长视频生成

核心技术解析

1. 参考图像视频生成

2. 视频语义延长

音频参考任务

为什么是昆仑天工？

相关推荐

仿真合成数据：驱动具身智能与世界模型突破的关键燃料

Qoder深度评测：国产AI编程工具如何颠覆真实软件研发？

移动端AI编程革命：OpenCode Manager开源项目实现手机端代码管理与AI协作

AI裁员潮来袭：2026年科技巨头用机器换人，Oracle、亚马逊、Block裁员数万，AI重写公司用人公式

AI反派困境：Moral RolePlay基准揭示大模型道德角色扮演的深层局限