昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

昆仑天工开源SkyReels-V3:多模态视频生成模型实现技术突破

近日,昆仑天工正式宣布开源其多模态视频生成模型 SkyReels-V3。该模型在文生视频、图生视频、视频延长及虚拟形象生成等多个维度展现出强大能力,致力于解决AI生成视频内容在真实性、连贯性与物理合理性方面的长期挑战。

多模态生成能力实测

SkyReels-V3支持从图像生成动态视频。以下测试中,模型根据两张人物参考图,成功生成了符合“在雪中推销霉豆腐”文本描述的视频片段。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元 | 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元
—|—

视频中人物特征还原准确,手部动作流畅,背景飘雪与行人等动态细节也得到了自然呈现。

模型同样能处理复杂的多对象交互指令。例如,根据“猫咪指向纸巾”的提示及多张参考图,生成的视频不仅准确完成了互动任务,还包含了额外的连贯动作。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元 | 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元 | 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元
—|—|—

在基于名人图像生成“舞台争论”场景的测试中,模型展现了良好的角色一致性与动态生成能力。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元 | 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元 | 昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元
—|—|—

视频延长与专业编辑

SkyReels-V3的视频延长功能支持两种模式:
* 单镜头延长:保持镜头平滑连续。
* 镜头切换延长:支持切入、切出、多角度等专业转场效果。

用户可灵活调节输出视频的分辨率(如480P、720P)、时长(5-30秒)及画幅比例(如16:9、9:16等)。

官方示例展示了单镜头延长的效果,画面色彩与动作过渡连贯。

镜头切换延长示例则体现了模型在理解原场景语义基础上,进行合理场景想象与切换的能力。

虚拟形象与长视频生成

模型的虚拟形象生成功能不限于单人数字人,可支持多角色对话、卡通风格及复杂口型同步。

此外,模型能够生成分钟级别的长视频,并保持内容的连贯性与叙事流畅度。

核心技术解析

SkyReels-V3针对当前AI视频生成普遍存在的“不真”问题——如高质量数据稀缺、时空连贯性不足、缺乏物理规律理解——提出了系统性解决方案。

模型采用 “一核多支” 架构,以一个统一的多模态上下文学习(Multi-modal In Context Learning) 预训练框架为基座,针对不同子任务进行差异化精调。

1. 参考图像视频生成

为提升角色与场景一致性,技术路径包含三个关键步骤:
* 精细化数据构建:通过筛选高动态视频片段、采用跨帧配对策略构建训练数据,并利用图像编辑技术进行主体提取与背景重构,以消除视觉伪影。
* 多参考条件融合:支持最多4张参考图像同时输入,实现对人物、场景、服装等多维度细节的精准控制,无需依赖冗长复杂的文本指令。
* 混合训练策略:结合图像-视频混合训练与多分辨率联合优化,使模型兼具高分辨率细节与视频动态逻辑,并增强对不同画幅的鲁棒性。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

2. 视频语义延长

该功能超越了简单的帧补全,实现了智能语义理解。模型能够解读前序镜头的剧情与逻辑,并根据用户提示词,主动生成符合叙事发展的后续镜头,同时可应用专业的剪辑转场手法。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

这主要归功于两大技术突破:

(1)统一多分段位置编码
在多段不同视角的视频中,借助统一的编码系统,确保物体在不同镜头间的运动符合逻辑;分层混合训练让模型学习切镜时机和方法,以实现转场时的镜头平滑切换。

(2)鲁棒时空建模
该步骤让模型在面对快速运动(如赛车)、多主体交互(如多人格斗)、场景剧变(如从光线差的室内转向室外)等极端情况时,依旧能维持物体形状和位置,同时确保视频始终遵循现实世界的物理规律和视觉连贯性。

总的来说,这两项技术赋予SkyReels-V3导演思维,让画面调度更精细,故事内容更具叙事张力。

音频参考任务

SkyReels-V3虚拟形象模型能够基于单张参考图和音频,生成音视频同步的高清视频,不仅支持人物嘴部和音频对齐、多角色交互,还支持分钟级长视频生成。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

这也是业内首个支持单镜头多人多轮对话的数字人模型,具体技术依赖于:

(1)精准音视频对齐
SkyReels-V3改变了以往“全图对口型”的方式,通过区域路由机制实现了精准控制。用户可以指定画面中的某个特定角色说话,然后将不同角色的音频按顺序排列,生成自然的对话过程。
其次,借助专用音视频对齐训练策略、语音单元与面部区域的显式建模,确保嘴型在不同语速、语言、风格下的鲁棒性。

(2)关键帧约束生成
由于直接生成长视频会导致显存爆炸或逻辑崩坏,SkyReels-V3采用了先骨架后填充的策略。
先通过构建等间隔的关键帧,确定视频的大致动作框架;再以关键帧和实时音频作为约束,分段填充中间帧,实现平滑过渡;最后调节给定参考图的位置编码(即它与关键帧的距离),来灵活控制动作幅度。

这种方式体现在评测指标上,同分辨率场景下,SkyReels-V3在画面质量和一致性上均接近主流闭源SOTA模型,具备显著优势。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

值得注意的是,以上全部技术均已开源,且三大任务模块之间相互独立,用户可根据自身需求自由组合。

为什么是昆仑天工?

AI视频生成领域已从单纯的技术展示,全面转向追求商业增量的白热化竞争阶段。如果说去年是相关国产模型集体爆发的一年,那么今年则是行业进入深度洗牌的关键时期。

而SkyReels-V3以优秀的多模态能力、角色一致性和可控精度脱颖而出,成为其中尤为亮眼的产品。

这就引出一个问题:为什么是昆仑天工先发制人?

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

纵观昆仑天工的AGI布局,SkyReels-V3的出现绝非偶然。

从模型层面讲,昆仑天工始终坚持自研技术,围绕MoE架构与多模态技术,逐步迭代形成覆盖通用与垂直场景的模型矩阵。
目前主要包括八大模型:文本、多模态、代码、Agent、视频、世界模型/3D、音乐、音频。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

例如:
* 业界首款中文逻辑推理大模型:Skywork 4.0 o1
* 能实现低延迟拟人语音对话:Skywork 4.0 4o
* 在同等规模下比肩DeepSeek-R1:Skywork-OR1
* 国内首个面向AI短剧创作的视频生成模型:SkyReels-V1
* 全面领跑主流评测,收获Kaggle官方推荐:Skywork R1V2
* ……

这足以证明昆仑天工在技术侧的强劲发力:一方面利用模型架构创新降低推理成本,另一方面通过在垂直领域追求行业顶尖水准,建立起差异化生态优势。

从产品层面讲,依托坚实的大模型技术,昆仑天工兼顾C端普惠与B端定制,打造了天工超级智能体、AI音乐创作平台Mureka、AI社交Linky等代表性应用。

其中,天工超级智能体定位为AI办公赋能,依靠5个专家智能体(文档、PPT、表格、网页、播客)和1个通用智能体,可在5分钟内生成30页PPT,大幅提升工作效率,带来“所见即所得”的高效智能体验。自5月发布后,天工超级智能体在后续迭代中不断追加智能体、升级功能,已成为Office Agent领域不可忽视的新兴力量。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

而AI音乐Mureka、AI社交Linky也在海外反响热烈。
Mureka自2025年3月起,累计新增全球注册用户近700万,服务超100个国家和地区,最新发布的Mureka V8更是一举超越Suno V5,登顶垂类世界第一。
Linky作为全球出海TOP3的社交陪伴平台,在2024年强势达成单月最高收入突破100万美元的成绩,是海外增长最快的中国AI社交应用之一。

依托深厚的技术积累,昆仑天工近年陆续推出了面向不同人群的针对性产品,例如对上班族讲效率,对Z世代讲娱乐,几乎所有人都能在昆仑天工找到契合自身的AI应用。

这正是昆仑天工的优势所在:长期敏锐洞察市场的同时,也得益于开源积累了一批忠实用户,构建起“技术-用户-社区”的正向可持续循环。用户的积极反馈能持续反哺产品创新,使得昆仑天工的产品生命周期长、商业效果好、技术变现快。

昆仑天工SkyReels-V3开源:多模态视频生成新标杆,开启AI创作新纪元

综合来看,昆仑天工打通了技术到产品的转化链路,强技术驱动好产品,好产品迅速盈利回馈技术研发,并沿着这条主线逐步外扩,形成了由大模型、搜索、游戏、音乐、社交、短剧组成的多元AI业务矩阵。

事实证明,这条由点及面的扩张路径颇有成效,昆仑天工已经抢先交出了答卷。

  • GitHub链接:https://github.com/SkyworkAI/SkyReels-V3
  • API链接(限时免费):https://www.apifree.ai/model/skywork-ai/skyreels-v3/standard/single-avatar

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19830

(0)
上一篇 2026年1月29日 下午3:58
下一篇 2026年1月29日 下午4:14

相关推荐

  • 仿真合成数据:驱动具身智能与世界模型突破的关键燃料

    在AI技术从信息处理向物理世界交互演进的关键拐点,仿真合成数据正从辅助工具转变为基础设施,成为训练下一代AI模型的核心要素。近期,专注于该领域的光轮智能完成数亿元融资,其客户涵盖英伟达、谷歌、阿里、字节等科技巨头,以及Figure AI、智元机器人、丰田、比亚迪等产业代表,凸显了仿真合成数据在AI生态中的战略地位。 当前AI发展的核心矛盾在于:模型在文本、图…

    2025年11月19日
    30500
  • Qoder深度评测:国产AI编程工具如何颠覆真实软件研发?

    在当今快速迭代的软件开发领域,程序员们普遍面临着一个棘手的挑战:理解和维护大型、复杂的代码库。无论是接手遗留系统、参与开源项目,还是协作企业级应用,开发者往往需要耗费数周甚至数月的时间来梳理代码结构、理解业务逻辑。传统方法依赖人工阅读、文档搜索和团队沟通,效率低下且容易出错。 近期,一款名为Qoder的国产AI编程工具横空出世,旨在彻底改变这一现状。Qode…

    2025年11月27日
    58400
  • 移动端AI编程革命:OpenCode Manager开源项目实现手机端代码管理与AI协作

    马年大吉,想在旅途中体验编码乐趣怎么办? 有开发者开源了一个名为OpenCode Manager的项目,这是一个专为移动设备设计的Web界面,用于管理OpenCode AI代理。项目采用Docker容器化部署,支持Git集成、文件浏览器、语音转文本、文本转语音、推送通知等功能。 移动优先的设计理念 OpenCode Manager最大的特点是移动优先的响应式…

    2026年2月17日
    1.0K00
  • AI裁员潮来袭:2026年科技巨头用机器换人,Oracle、亚马逊、Block裁员数万,AI重写公司用人公式

    截至2026年2月,美国科技行业已裁员约9万人,这一数字比2025年全年裁员总数(约5.5万)高出近100%。本轮裁员的主要公司包括:* 亚马逊:裁员约16,000人,其目标是实现80%的代码由AI生成。* 甲骨文(Oracle):计划裁员30,000至45,000人,以筹集资金投入数据中心建设。* Block:裁员约4,000人,占员工总数的40%。 外界…

    2026年3月25日
    1.1K00
  • AI反派困境:Moral RolePlay基准揭示大模型道德角色扮演的深层局限

    在人类叙事艺术中,复杂角色的塑造始终是衡量作品深度的核心标尺。从莎士比亚笔下的麦克白到《蝙蝠侠》中的小丑,反派角色的心理深度与道德复杂性往往成为故事张力的关键来源。当人工智能开始涉足创意生成领域时,一个根本性问题浮现:这些基于海量人类数据训练的大语言模型,能否真正理解并模拟人类道德光谱中的阴暗面?腾讯混元数字人团队与中山大学联合发布的「Moral RoleP…

    2025年11月22日
    45600