昆仑天工开源SkyReels-V3:多模态视频生成模型实现技术突破
近日,昆仑天工正式宣布开源其多模态视频生成模型 SkyReels-V3。该模型在文生视频、图生视频、视频延长及虚拟形象生成等多个维度展现出强大能力,致力于解决AI生成视频内容在真实性、连贯性与物理合理性方面的长期挑战。
多模态生成能力实测
SkyReels-V3支持从图像生成动态视频。以下测试中,模型根据两张人物参考图,成功生成了符合“在雪中推销霉豆腐”文本描述的视频片段。
| 
—|—
视频中人物特征还原准确,手部动作流畅,背景飘雪与行人等动态细节也得到了自然呈现。
模型同样能处理复杂的多对象交互指令。例如,根据“猫咪指向纸巾”的提示及多张参考图,生成的视频不仅准确完成了互动任务,还包含了额外的连贯动作。
|
| 
—|—|—
在基于名人图像生成“舞台争论”场景的测试中,模型展现了良好的角色一致性与动态生成能力。
|
| 
—|—|—
视频延长与专业编辑
SkyReels-V3的视频延长功能支持两种模式:
* 单镜头延长:保持镜头平滑连续。
* 镜头切换延长:支持切入、切出、多角度等专业转场效果。
用户可灵活调节输出视频的分辨率(如480P、720P)、时长(5-30秒)及画幅比例(如16:9、9:16等)。
官方示例展示了单镜头延长的效果,画面色彩与动作过渡连贯。
镜头切换延长示例则体现了模型在理解原场景语义基础上,进行合理场景想象与切换的能力。
虚拟形象与长视频生成
模型的虚拟形象生成功能不限于单人数字人,可支持多角色对话、卡通风格及复杂口型同步。
此外,模型能够生成分钟级别的长视频,并保持内容的连贯性与叙事流畅度。
核心技术解析
SkyReels-V3针对当前AI视频生成普遍存在的“不真”问题——如高质量数据稀缺、时空连贯性不足、缺乏物理规律理解——提出了系统性解决方案。
模型采用 “一核多支” 架构,以一个统一的多模态上下文学习(Multi-modal In Context Learning) 预训练框架为基座,针对不同子任务进行差异化精调。
1. 参考图像视频生成
为提升角色与场景一致性,技术路径包含三个关键步骤:
* 精细化数据构建:通过筛选高动态视频片段、采用跨帧配对策略构建训练数据,并利用图像编辑技术进行主体提取与背景重构,以消除视觉伪影。
* 多参考条件融合:支持最多4张参考图像同时输入,实现对人物、场景、服装等多维度细节的精准控制,无需依赖冗长复杂的文本指令。
* 混合训练策略:结合图像-视频混合训练与多分辨率联合优化,使模型兼具高分辨率细节与视频动态逻辑,并增强对不同画幅的鲁棒性。

2. 视频语义延长
该功能超越了简单的帧补全,实现了智能语义理解。模型能够解读前序镜头的剧情与逻辑,并根据用户提示词,主动生成符合叙事发展的后续镜头,同时可应用专业的剪辑转场手法。


这主要归功于两大技术突破:
(1)统一多分段位置编码
在多段不同视角的视频中,借助统一的编码系统,确保物体在不同镜头间的运动符合逻辑;分层混合训练让模型学习切镜时机和方法,以实现转场时的镜头平滑切换。
(2)鲁棒时空建模
该步骤让模型在面对快速运动(如赛车)、多主体交互(如多人格斗)、场景剧变(如从光线差的室内转向室外)等极端情况时,依旧能维持物体形状和位置,同时确保视频始终遵循现实世界的物理规律和视觉连贯性。
总的来说,这两项技术赋予SkyReels-V3导演思维,让画面调度更精细,故事内容更具叙事张力。
音频参考任务
SkyReels-V3虚拟形象模型能够基于单张参考图和音频,生成音视频同步的高清视频,不仅支持人物嘴部和音频对齐、多角色交互,还支持分钟级长视频生成。

这也是业内首个支持单镜头多人多轮对话的数字人模型,具体技术依赖于:
(1)精准音视频对齐
SkyReels-V3改变了以往“全图对口型”的方式,通过区域路由机制实现了精准控制。用户可以指定画面中的某个特定角色说话,然后将不同角色的音频按顺序排列,生成自然的对话过程。
其次,借助专用音视频对齐训练策略、语音单元与面部区域的显式建模,确保嘴型在不同语速、语言、风格下的鲁棒性。
(2)关键帧约束生成
由于直接生成长视频会导致显存爆炸或逻辑崩坏,SkyReels-V3采用了先骨架后填充的策略。
先通过构建等间隔的关键帧,确定视频的大致动作框架;再以关键帧和实时音频作为约束,分段填充中间帧,实现平滑过渡;最后调节给定参考图的位置编码(即它与关键帧的距离),来灵活控制动作幅度。
这种方式体现在评测指标上,同分辨率场景下,SkyReels-V3在画面质量和一致性上均接近主流闭源SOTA模型,具备显著优势。

值得注意的是,以上全部技术均已开源,且三大任务模块之间相互独立,用户可根据自身需求自由组合。
为什么是昆仑天工?
AI视频生成领域已从单纯的技术展示,全面转向追求商业增量的白热化竞争阶段。如果说去年是相关国产模型集体爆发的一年,那么今年则是行业进入深度洗牌的关键时期。
而SkyReels-V3以优秀的多模态能力、角色一致性和可控精度脱颖而出,成为其中尤为亮眼的产品。
这就引出一个问题:为什么是昆仑天工先发制人?

纵观昆仑天工的AGI布局,SkyReels-V3的出现绝非偶然。
从模型层面讲,昆仑天工始终坚持自研技术,围绕MoE架构与多模态技术,逐步迭代形成覆盖通用与垂直场景的模型矩阵。
目前主要包括八大模型:文本、多模态、代码、Agent、视频、世界模型/3D、音乐、音频。

例如:
* 业界首款中文逻辑推理大模型:Skywork 4.0 o1
* 能实现低延迟拟人语音对话:Skywork 4.0 4o
* 在同等规模下比肩DeepSeek-R1:Skywork-OR1
* 国内首个面向AI短剧创作的视频生成模型:SkyReels-V1
* 全面领跑主流评测,收获Kaggle官方推荐:Skywork R1V2
* ……
这足以证明昆仑天工在技术侧的强劲发力:一方面利用模型架构创新降低推理成本,另一方面通过在垂直领域追求行业顶尖水准,建立起差异化生态优势。
从产品层面讲,依托坚实的大模型技术,昆仑天工兼顾C端普惠与B端定制,打造了天工超级智能体、AI音乐创作平台Mureka、AI社交Linky等代表性应用。
其中,天工超级智能体定位为AI办公赋能,依靠5个专家智能体(文档、PPT、表格、网页、播客)和1个通用智能体,可在5分钟内生成30页PPT,大幅提升工作效率,带来“所见即所得”的高效智能体验。自5月发布后,天工超级智能体在后续迭代中不断追加智能体、升级功能,已成为Office Agent领域不可忽视的新兴力量。

而AI音乐Mureka、AI社交Linky也在海外反响热烈。
Mureka自2025年3月起,累计新增全球注册用户近700万,服务超100个国家和地区,最新发布的Mureka V8更是一举超越Suno V5,登顶垂类世界第一。
Linky作为全球出海TOP3的社交陪伴平台,在2024年强势达成单月最高收入突破100万美元的成绩,是海外增长最快的中国AI社交应用之一。
依托深厚的技术积累,昆仑天工近年陆续推出了面向不同人群的针对性产品,例如对上班族讲效率,对Z世代讲娱乐,几乎所有人都能在昆仑天工找到契合自身的AI应用。
这正是昆仑天工的优势所在:长期敏锐洞察市场的同时,也得益于开源积累了一批忠实用户,构建起“技术-用户-社区”的正向可持续循环。用户的积极反馈能持续反哺产品创新,使得昆仑天工的产品生命周期长、商业效果好、技术变现快。

综合来看,昆仑天工打通了技术到产品的转化链路,强技术驱动好产品,好产品迅速盈利回馈技术研发,并沿着这条主线逐步外扩,形成了由大模型、搜索、游戏、音乐、社交、短剧组成的多元AI业务矩阵。
事实证明,这条由点及面的扩张路径颇有成效,昆仑天工已经抢先交出了答卷。
- GitHub链接:https://github.com/SkyworkAI/SkyReels-V3
- API链接(限时免费):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19830
