在人工智能生成内容领域,视频生成技术正经历从扩散模型向自回归架构的范式转移。字节跳动商业化技术团队最新提出的InfinityStar方法,凭借其创新的时空金字塔建模框架,在NeurIPS’25 Oral论文中展示了挑战当前主流Diffusion Transformer(DiT)视频生成方案的潜力。这一突破不仅体现在生成质量上,更关键的是在计算效率方面实现了数量级提升,为实时视频生成应用开辟了新路径。

传统DiT模型虽然确立了视频生成的质量基准,但其基于迭代去噪的生成机制存在固有局限。每次生成需要数百步的采样过程,导致推理延迟显著,计算资源消耗巨大。这种延迟在交互式应用场景中尤为突出,限制了视频生成技术的实际部署范围。InfinityStar的核心贡献在于将视频生成重构为自回归序列预测问题,通过一次性前向传播完成生成,从根本上改变了生成范式。

InfinityStar的架构创新体现在三个维度:首先,它是首个在VBench基准测试中超越扩散模型的离散自回归视频生成器,标志着自回归方法在质量评估上的里程碑突破;其次,生成速度实现质的飞跃,从百步迭代优化到单次前向传播,为实时应用奠定基础;第三,任务泛化能力显著,统一架构支持文生图、文生视频、图生视频、交互式长视频生成等多模态任务。
技术实现层面,InfinityStar的时空金字塔建模方法构成了其核心优势。该方法将视频分解为两个逻辑组件:首帧作为静态外观信息的载体,采用图像金字塔进行由粗到精的建模;后续视频片段则通过时空金字塔捕捉动态演变。这种解耦策略使得模型能够分别优化外观保真度和运动自然度,同时通过统一的时空自回归Transformer建立尺度间和片段间的依赖关系。

在具体应用中,InfinityStar展示了强大的多任务协同能力。用户可以通过提示词生成高质量静态图像,再以此为基础生成动态视频,实现创作流程的无缝衔接。例如,生成超写实布偶猫肖像后,可进一步制作猫咪张嘴发声、舔鼻子的连贯动作视频,保持角色一致性和动作自然度。

这种能力扩展到复杂场景时表现依然稳健,无论是影视级镜头语言还是人物复杂动作序列,InfinityStar都能保持时空一致性。更重要的是,其原生支持交互式长视频生成,用户可基于5秒参考视频和新的提示词,引导模型生成后续内容,为创意工作流提供了前所未有的灵活性。
效率提升的背后是两项关键技术突破。首先是高效的视觉分词器设计,通过知识继承策略复用预训练连续分词器的结构和权重,大幅缩短离散分词器的训练周期;同时引入随机量化器深度正则化,解决视频金字塔中信息分布不均衡问题,迫使模型在粗糙尺度下学习全局语义,提升训练稳定性和生成质量。



其次是优化的时空自回归Transformer架构。针对视频生成特有的长上下文和时空依赖挑战,InfinityStar在注意力机制、位置编码和层归一化等方面进行了针对性改进。这些优化使模型能够有效建模跨帧的时间连贯性和空间一致性,同时保持计算复杂度在可控范围内。
从产业影响角度看,InfinityStar的出现可能重塑视频生成技术栈。其开源策略(论文、代码、体验地址均已发布)降低了技术门槛,而Discord社区的集成部署方式则展示了易用性设计思路。对于内容创作者、影视制作、游戏开发等行业,这种高质量、低延迟的视频生成能力将催生新的应用场景和工作流程。
然而,技术挑战依然存在。自回归模型在生成长序列时的错误累积问题需要进一步解决,多尺度金字塔的优化空间仍然广阔。未来研究方向可能集中在更精细的时空建模、更好的长视频一致性保持,以及与其他模态(如音频、文本)的深度融合。
总体而言,InfinityStar代表了视频生成技术发展的重要方向:在保持质量的前提下追求极致效率,通过架构创新突破现有范式限制。其成功不仅是对DiT主导地位的有力挑战,更为整个AIGC领域提供了自回归路径可行性的重要实证,预示着视频生成技术将进入更加多元化的发展阶段。
— 图片补充 —



关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/7385
