Video-As-Prompt：统一语义控制新范式，开启视频生成“克隆”时代

2025年11月18日下午12:56 • AI产业动态 • 阅读 85

在当前的AI视频生成领域，实现抽象语义的精确控制一直是个技术难题。无论是复刻Labubu特效、重现吉卜力风格，还是模仿希区柯克运镜，这些依赖高层次语义理解的创作任务，往往因缺乏统一的条件表征而难以实现。传统方法通常采用两种路径：一是针对每种语义单独训练LoRA模型，二是为特定语义类别设计专用架构。然而，前者面临语义条件无穷无尽、模型复杂度爆炸、泛化能力缺失的困境；后者虽能在子集内解决问题，但不同语义类别间需要频繁切换模型，阻碍了统一建模和规模化发展。

为解决这一核心痛点，香港中文大学与字节跳动团队联合提出了革命性的语义可控视频生成框架——Video-As-Prompt。该框架创新性地引入了“视频参考”新范式，用户只需提供一段参考视频及其语义描述作为prompt，模型就能直接“克隆”指定语义并应用于新内容。这种设计从根本上统一了抽象语义下的可控生成范式，将多样化的语义控制需求收敛到单一的参考视频输入上。

从技术架构看，Video-As-Prompt的成功建立在三个关键突破之上。首先是统一的语义条件表征：通过将参考视频作为抽象语义的载体，避免了针对不同语义设计专门编码模型的复杂性，极大提升了架构的通用性和可扩展性。其次是高效的语义信息映射：借鉴in-context generation思想，将参考视频视为“视频prompt”，在生成过程中实现语义信息的自然传递。最后是可扩展的训练架构：采用Mixture-of-Transformers（MoTs）设计，将冻结的视频扩散Transformer与可训练的并行专家Transformer相结合，既保持了基础模型的稳定性，又实现了语义条件的灵活融入。

具体到实现细节，Video-As-Prompt的MoTs架构展现了精妙的工程智慧。专家Transformer专门处理参考视频的语义条件tokens，而冻结的DiT则负责生成视频tokens。在每一层中，两部分的Q/K/V被连接并运行全注意力机制，实现了双向信息融合。这种设计既避免了直接训练视频生成基模可能导致的灾难性遗忘，又确保了语义控制的精确性。值得注意的是，该框架支持四大类复杂语义的克隆迁移：复杂概念、艺术风格、指定动作和相机运镜，覆盖了视频创作的核心需求。

在数据集建设方面，研究团队构建并开源了VAP-Data——目前语义可控视频生成领域最大的高质量数据集。该数据集包含超过10万个视频样本，覆盖100多个语义条件，为后续研究提供了宝贵资源。实验对比显示，Video-As-Prompt在视频质量、文本一致性、语义一致性等指标上，与Kling/Vidu等闭源商业模型表现相当，并显著优于其他开源基线。更重要的是，它首次实现了对所有语义条件的统一控制，并展现出强大的零样本泛化能力。

从技术演进的角度看，Video-As-Prompt代表了视频生成领域的重要范式转变。它将离散的语义控制问题转化为连续的参考视频建模问题，这种“克隆”思维不仅简化了用户交互，更打开了模型规模化的大门。当面对训练数据中未出现的新语义参考时，模型仍能通过已学习的上下文生成能力进行零样本推理，这种泛化能力是传统方法难以企及的。

展望未来，Video-As-Prompt的“视频即提示”理念可能引发连锁反应。一方面，它降低了专业视频创作的门槛，使更多创作者能够实现复杂的语义控制；另一方面，其统一的建模框架为多模态理解与生成提供了新思路。随着模型规模的扩大和数据的丰富，这种参考视频克隆范式有望在更广泛的视觉内容生成领域发挥作用。

综合来看，Video-As-Prompt不仅是一个技术框架，更是一种方法论创新。它将抽象语义控制这个复杂问题，优雅地转化为参考视频的表示学习问题，通过统一的架构设计实现了效率与效果的平衡。开源的数据集、代码和模型，进一步降低了研究门槛，有望推动整个领域向更统一、更可控的方向发展。在AI视频生成竞争日益激烈的今天，这种基础性的范式创新可能比单纯的性能提升更具长远价值。

— 图片补充 —