
春节期间,Seedance 2.0 的爆火将视频生成技术再次推向风口。紧随其后,字节跳动联合北京大学、安努智能及 Canva 共同开源了具备实时生成能力的视频模型系列——Helios。该系列包含 Helios-Base、Helios-Mid 与 Helios-Distilled 三个版本,全面支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V)及交互式生成任务。凭借仅 14B 的参数量,Helios 实现了高达 19.5 FPS 的单卡生成速度,在生成质量与推理效率之间取得了出色平衡。
值得一提的是,该项目在发布首日即实现了对昇腾 NPU 的 Day-0 级别支持,并同步兼容 Diffusers、vLLM-Omni、SGLang-Diffusion 等主流推理框架。

凭借卓越的性能与广泛的生态兼容性,Helios 迅速登顶 Hugging Face Daily Papers 榜单。在 GitHub 上,这个发布仅一两天的开源项目已收获超过 520 个 star。
- 论文标题:Helios: Real Real-Time Long Video Generation Model
- 论文地址:https://arxiv.org/abs/2603.04379
- 项目地址:
- https://github.com/PKU-YuanGroup/Helios
- https://gitcode.com/weixin_47617277/Helios
在社区关注其高质量、高速度生成能力的同时,技术分析揭示了其背后的技术渊源:Helios 的核心开发团队来自北京大学袁粒课题组,其技术栈与团队此前重磅开源的 Open-Sora Plan(OSP)项目高度同源。具体而言,Helios 与 OSP 团队近期开源的 UniWorld-OSP2.0 存在三分之一到二分之一的代码复用。
可以说,Helios 是对这一核心技术路线的又一次有效验证,其性能相比 OSP 团队基于 UniWorld-OSP2.0 开发的 OSP-RealTime 14B 模型更为出色。

更值得关注的是,支撑 OSP 系列项目的算力引擎指向了一套庞大的国产化算力生态——鲲鹏与昇腾算力。正是得益于北京大学鲲鹏昇腾科教创新卓越中心的赋能与算力支持,这些开源项目才得以实现。在探讨其惊艳性能时,昇腾算力底座提供的强大支撑不容忽视。
从 Seedance 2.0 到 Helios 的成功可以看出,AI 视频生成社区正形成一个愈发清晰的技术共识:SOTA 视频生成能力正快速向以 Diffusion Transformer(DiT)为核心的统一范式收敛。同时,模型的竞争焦点正从基础画质转向更高层级的语义理解深度与多模态协同效率。
正是在这样的技术拐点与开源生态辐射下,Open-Sora Plan 团队推出的 UniWorld-OSP2.0 进入了越来越多研究者的视野。
这不仅仅是一次简单的版本迭代。作为业界首个开源的超百亿参数(21B)视频生成大模型,UniWorld-OSP2.0 同时也是首个实现「双原生」(昇腾原生 & 自回归+Diffusion 混合架构)统一范式的大模型体系。

UniWorld-OSP2.0 开源地址:
* https://modelers.cn/models/PKU-YUAN-Group/Uniworld-OSP2.0
* https://github.com/PKU-YuanGroup/UniWorld/tree/main/UniWorld-OSP2.0
在核心评测指标上,其在 VBench-I2V 基准上的表现已全面超越 Wan2.1,迅速成为开源视频生成生态中最具风向标意义的技术坐标之一。

UniWorld-OSP2.0 与其它开源视频模型在 VBench-I2V 基准上的表现对比
在关键评估指标的对比中,UniWorld-OSP2.0 在运动质量、图像保真度和语义一致性方面均表现出优越性,其整体表现已稳步进入开源阵营第一梯队。
伴随着新版本的发布,社区层面的发展同样如火如荼。Open-Sora Plan 项目已累计获得约 1.2 万 GitHub star 和千万级下载量,多次登上 Trending 榜单,并在实际代码活跃度上进入开源视频模型第一梯队。

Open-Sora Plan 开源项目已在 GitHub 收获超 1.2 万 star
这样一个高性能、低成本且自主可控的视频大模型底座,正加速演化为产业侧可复用的视频生成基础设施。目前已有包括字节跳动、腾讯 WXG、阿里达摩院、小红书、哔哩哔哩等多家团队基于该框架展开二次开发,海外多家 AI 公司亦同步跟进。
随着团队宣布将进一步开源 12 类风格化数据集及完整模型权重,视频生成领域或许正迎来属于自己的「视觉版 LLaMA 时刻」。随之而来的问题是:这个正在开源视频生成生态中持续演进的技术框架,究竟做对了什么?
下面我们将基于 UniWorld-OSP2.0 的官方技术报告进行解读。

报告地址:https://github.com/PKU-YuanGroup/UniWorld/blob/main/UniWorld-OSP2.0/docs/Uniworld-OSP2.0.pdf
整体架构:三大核心组件的无缝协同
在深入探讨 UniWorld-OSP2.0 的具体技术突破之前,有必要先从宏观视角拆解其整体架构。这有助于我们理解该模型是如何支撑起「双原生」统一范式并实现高质量生成的。

UniWorld-OSP2.0 架构概览
根据技术报告,UniWorld-OSP2.0 的系统框架在底层逻辑上主要由三个核心组件构成:
- 因果变分自编码器(Causal VAE):作为视频像素空间与潜在空间之间的桥梁,它负责将高维的视频序列压缩为紧凑的、具有因果结构的潜在表示,确保在保持时间因果关系的同时提升处理效率。
- VLM 增强的多模态条件模块:这是该架构的认知中枢。它利用一个冻结状态下的 VLM(视觉-语言模型)来提取多模态特征,随后通过一个可训练的 Adapter 模块将这些特征进行适配与映射,从而为后续的生成过程提供深度的语义指导。
- 扩散 Transformer(DiT)主干网络:作为视频生成的核心引擎,DiT 接收上述经过 Adapter 处理的语义特征,并在 VAE 提供的潜在空间中执行条件去噪,最终合成在时间上高度连贯的视频流。
这套「VAE + VLM + DiT」架构构成了 UniWorld-OSP2.0 强大性能的基石,同时也为模型深度适配昇腾算力、实现真正的「昇腾原生」打下了系统级的结构基础。建立在这个全局架构认知之上,我们再来细看研究团队是如何在具体的生成与理解环节中精准落刀,解决行业痛点的。
一大核心技术优势:FlashI2V,物理一致性的定海神针
UniWorld-OSP2.0 的第一项核心技术突破,精准落在了视频的物理一致性上。
长期以来,I2V(图像生成视频)生成的视频常常出现动作僵硬或画面崩坏的问题。其核心症结在于条件图像泄漏(Conditional Image Leakage)。

条件图像泄漏问题的创新解法
传统图像到视频(I2V)生成模型(如SVD及其早期变体)通常将完整的条件图像数据直接与噪声潜在变量拼接,并输入去噪器。这种范式导致去噪器过度依赖条件图像,将其视为生成“捷径”,进而引发生成视频动作幅度小、色调不协调等性能退化问题。为解决这一普遍存在的条件图像泄漏难题,研究团队提出了FlashI2V核心机制。

FlashI2V架构示意图:条件图像的潜在变量经过投影和偏移,形成隐式编码的中间表示。同时,图像经傅里叶变换提取的高频幅度特征与带噪潜在变量拼接,共同输入DiT主干网络。在推理时,去噪过程从偏移后的噪声开始,沿常微分方程轨迹进行,最终重建出视频。
FlashI2V的核心在于两项协同工作的关键技术:
- 潜空间偏移:该技术通过修改流匹配的分布,将条件图像信息隐式而非显式地整合进扩散过程。一个可学习的投影模块将原始潜变量转换到富含结构和高频特征的空间中。这相当于为扩散链路引入了“运动自由度阀门”,从根本上减少了对条件图像的过度依赖,有效缓解了泄漏问题,确保了生成视频具有高保真度的动态运动。
- 傅里叶引导:为弥补潜空间偏移过程中可能损失的高频细节(如边缘和纹理),该机制在频域层面进行增强。它将条件图像经傅里叶变换得到的高频幅度特征,与噪声潜在空间拼接后输入模型。这不仅在频域稳定了运动预测,校准了细节,还允许通过调整截止频率百分比,对生成视频的细节水平(如文本清晰度、精细纹理)进行细粒度控制。

潜空间偏移和傅里叶引导分析。(a) 训练过程中,可学习投影函数 ϕ(・) 逐渐强调条件图像中的详细信息。(b) 使用较低的截止频率百分位数(如0.1)会注入更多高频信息,使视频末尾的图形文字保持清晰;而较高的百分位数(如0.9)则导致文字变得模糊不可识别。
这两项技术的结合带来了显著效果:FlashI2V有效防止了输入参考图像在像素层面泄露至后续视频帧,避免了“静态图片复制”的僵硬感,同时保持了真实、流畅的运动轨迹,具备出色的时间一致性与空间稳定性。
从量化评估看,研究团队分析了不同I2V范式的分块式FVD变化。传统模型在领域内数据上的FVD随时间推移而增长,在领域外数据上则始终维持高位,表明其泛化能力有限。唯有FlashI2V能在领域内和领域外数据上均保持一致的FVD变化模式,成功实现了生成规律的跨领域泛化。正因如此,该方案取得了最低的领域外FVD分数,并在多项关键I2V指标上超越了Wan2.1模型。
两大核心创新:理解与风格化
在通过FlashI2V解决物理真实感生成的基础上,UniWorld-OSP2.0团队进一步在模型的认知理解与艺术表达控制上实现了突破。
1. 引入视觉语言模型以增强理解
传统方法依赖纯文本编码器(如T5)提取特征,往往只能捕获表层词汇信息,在细粒度指令对齐上存在瓶颈。为此,团队引入了一个冻结的预训练视觉语言模型(例如70亿参数的Qwen2.5-VL)作为多模态特征提取器。该模块能综合分析输入图像和文本提示,生成蕴含复杂跨模态关系的深层语义表示。随后,通过一个轻量级可训练适配器模块,将这些高维语义特征与DiT主干网络进行对齐。这一设计让模型直接继承了VLM强大的视觉基础常识,显著提升了对角色、动作等细粒度元素的控制精度。

经VLM增强的UniWorld-OSP2.0展现出优秀的视觉场景理解能力。
2. 提出图像到风格化视频任务以拓展艺术表达
仅生成真实物理世界还不够,可控的艺术化创作同样重要。以往的视频风格化多依赖于后期叠加滤镜,缺乏与画面内容的深度整合。为突破此局限,研究团队构建了一个包含12种典型艺术风格(如吉卜力动画、3D渲染、水墨画、乐高积木风等)的数据集,并提出了全新的I2SV任务范式。

I2SV任务所使用的12种典型艺术风格示例。
在此范式下,模型可在生成阶段直接接收原始图像、文本描述及目标风格指令,一步生成时间连贯、语义符合的风格化视频。配合严格的循环质量监控策略,该机制能确保角色动作与语义细节在风格化过程中得到完好保留,有效避免了角色变形和动作漂移。
OSP-RealTime 14B:迈向实时视频生成
传统观念认为,模型规模(如140亿参数)与生成速度不可兼得,大模型通常只能用于离线生成。袁粒课题组基于UniWorld-OSP2.0训练了OSP-RealTime 14B模型(这也是Helios系列的核心技术),在单张昇腾Atlas A3系列加速卡上,将文生视频的帧率提升至19.5 FPS,成为首个接近“交互式”体验的开源扩散模型。
该模型将长视频生成重新定义为无限的视频续写任务,最大程度保持了与预训练模型一致的推理方式。不同于现有方案采用滑动窗口和因果掩码实现的“拼接式延长”(其推理与训练模式不一致,限制质量上限),OSP-RealTime 14B通过在时间轴上拼接历史噪声潜在状态的策略,使扩散过程在窗口切换时能保持运动连续性,从而在不改变训练范式的前提下实现时间上的无限延展,保证了更高的生成质量下限。

实时长视频生成架构:一个基于Guidance Attention模块构建的自回归视频扩散Transformer。它通过多术语记忆分块化与金字塔式统一预测器-校正器,压缩历史信息与当前噪声上下文以降低计算开销,并通过表示控制统一建模T2V、I2V和V2V任务。
为实现实时生成,团队进行了三项关键优化:
1. 时间维度压缩:将噪声潜在变量的帧数从21帧减少至9帧,此举带来了平方级的计算量节省。
2. 多分辨率推理:采用由粗到细的策略,先在低分辨率下生成视频大体结构,再逐步上采样并细化至高分辨率,将大部分计算成本后置。
3. 采样加速:应用DMD蒸馏技术,将扩散推理步数从50步压缩至仅需4步,通过学习近似快速映射,将时间开销降低了一个数量级。

OSP-RealTime 14B实现的实时无限长视频生成示例。
为了让系统级改造在单块昇腾 Atlas A3 系列产品上实现约 10 FPS 的帧率,团队进行了深入的工程优化。
例如,通过引入特征缓存方案,以预计算和存储耗时较高的引导词特征来“以查代算”,该方案使多轮迭代训练时间缩短约 30%,并释放了 20% 的显存资源。
模型的训练与推理全程在昇腾 Atlas A3 系列产品上完成,深度融合了 MindSpeed-MM 套件的分布式训练能力(如 TP、SP 并行)、断点续训以及 SmartSwap 等原生特性。
总体而言,基于 UniWorld-OSP2.0 的 OSP-RealTime 14B 模型,不仅拓宽了其开源意义,也展现了商用规模化的潜力。
当 14B 参数规模的模型能够进入实时生成区间,视频生成的边界便开始松动。这意味着它不再局限于生成几秒的片段,而有望成为一个持续运行的系统。互动视频、生成式游戏场景、实时虚拟世界等过去停留在构想中的应用,正逐渐获得坚实的算力基础。
定义视频生成的「公共基础设施」
在开源体系中,UniWorld-OSP2.0 率先实现了多模态理解、物理生成、艺术表达与实时化能力的高度整合。这不仅在昇腾算力平台上跑通了工业级视频生成闭环,更在技术生态层面,依托昇腾底座定义了视频生成的「公共基础设施」。
研究团队在探索统一架构的过程中,排除了多尺度自回归导致的细节模糊、简单 token 早融合带来的质量瓶颈,以及 LLM 叠加 Flow 的工程局限,最终收敛出当前的最优解,为行业节约了巨大的试错成本。
对于以昇腾为核心的国产智算生态而言,该项目提供了一份高价值的工程实践指南。团队在适配昇腾算力时,解决了底层通信算子的精度误差与非并行切分层的推理稳定性问题。结合“以查代算”的特征缓存机制,开发者无需从零训练高耗能的 VAE 或调试复杂的 DiT 架构,即可获得经济高效的成熟工具链。
展望未来,视频生成的终局远不止于像素的变换。UniWorld-OSP2.0 所展现的跨模态对齐与物理规律学习能力表明,它正朝着真正的「通用视觉世界模型」稳步迈进。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/24692
