VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF,受 LLM「思维链」启发,通过「看 – 推理 – 编辑」的流程,仅需 50k 训练数据,就在多项任务上取得了 SOTA 效果,并完美支持长视频外推

目前,模型、代码均已开源,4 步编辑一条视频,训练数据 VideoCoF-50k 预计本周内开源!

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
  • 论文链接: https://arxiv.org/abs/2512.07469
  • 项目主页: https://videocof.github.io/
  • 代码 / 模型: https://github.com/knightyxp/VideoCoF
  • Demo链接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛点:精度与通用的「两难困境」

在 AIGC 时代,视频编辑已经有了长足进步,但仍存在一个明显的痛点:

  • 专家模型(Expert Models): 像医生做手术一样精准,但往往需要用户提供繁琐的 Mask,因此阻碍了自动化和统一化。
  • 通用上下文学习模型(Unified In-Context Models): 虽然不需要 Mask,但在面对复杂的空间关系(比如「右边的那个男孩」)时,往往「眼神不好」,定位不准。

能不能既要高精度,又不要 Mask?VideoCoF 给出了肯定的答案。

核心创新:像人一样「先思考,后动手」

VideoCoF 的核心灵感来自于大语言模型(LLM)中的思维链(Chain-of-Thought)。研究团队认为,视频生成模型也应该具备类似的推理能力。

为此,他们提出了 Chain of Frames (CoF) 机制,将视频编辑过程重构为三个阶段:

  1. Seeing(看): 输入原始视频。
  2. Reasoning(推理): 模型先预测出「推理帧」(Reasoning Frame),即用高亮区域明确指出「哪里需要编辑」。
  3. Editing(编辑): 基于推理结果,精准生成目标视频。
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

这种显式的推理过程,让模型学会了主动建立编辑指令与画面区域的对应关系,从而实现了无需 Mask 的高精度编辑。

时序 RoPE 对齐,实现长视频外推

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

除了推理能力,视频编辑的另一个难题是长度限制。很多模型只能编辑短视频,一旦视频变长,动作就会变形或崩坏。

VideoCoF 引入了独特的 RoPE(旋转位置编码)对齐策略:

  • 巧妙地对齐了原视频 [1,F] 和编辑视频 [1,F] 的时间索引,同时将推理帧的时间索引设置为 0,避免了推理帧与编辑帧的索引冲突;
  • 实现了「训练短视频(33 帧),推理长视频(140+ 帧)」的能力。

这意味着,用极小的成本训练出的模型,可以在推理时处理远超训练长度的视频,且保持动作流畅、无纹理突变和伪影。

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

实验验证:50k 数据「四两拨千斤」,性能全面 SOTA

除了架构设计的精妙,VideoCoF 最令人印象深刻的当属其惊人的数据效率。

为了验证效果,研究团队构建了一个包含添加、删除、替换及风格迁移的高质量实例级数据集,并在 VideoCoF-Bench 上进行了严格测评。

1. 以小博大:50k vs 100 万

  • VideoCoF: 仅使用 50k (5 万) 视频对进行微调。
  • 基线模型 (ICVE): 依赖庞大的 100 万视频预训练 + 15 万微调数据。

尽管训练数据量仅为基线的 1/20,VideoCoF 却实现了性能的反超:

  • 指令遵循 (Instruct Follow): 得分高达 8.97 (满分 10),显著优于 ICVE (7.79) 和 VACE (7.47)。这意味着模型能更精准地“听懂人话”,不会漏掉指令细节。
  • 成功率 (Success Ratio): 达到了 76.36%,大幅领先于商业模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

2. 为什么「推理」如此重要?(消融实验)

VideoCoF 的核心在于「先推理,再编辑」。那么,如果去掉推理帧,直接让模型硬算,效果会怎样?

研究团队进行了详细的消融实验(Ablation Study)。结果显示,相比于没有推理环节的 Naive Temporal in Context 基线:

  • 引入 CoF (Chain of Frames) 后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
  • 引入 RoPE 索引解耦后,长视频外推的保真度(Preservation)和时序一致性(CLIP-F)均有显著提升。

这有力地证明了:显式的时序推理(See-Reason-Edit)不仅是锦上添花,更是实现高精度视频编辑的关键。

3. 推理帧长什么样?「五彩斑斓的灰」才是最优解

除了「要不要推理」,VideoCoF 团队还深入研究了「推理帧到底该长什么样」,是像分割模型那样用黑白掩码?还是像圈图那样用红圈?

在 Table 3 的消融实验中,团队对比了三种形式:

  • 纯黑背景 (Black BG): 效果最差,因为扩散模型往往对极端的纯黑 / 纯白像素不敏感。
  • 红色高亮 (Red Highlight): 效果中规中矩。
  • 灰色高亮 (Gray Highlight): 表现优于红色。

最终杀器:渐变灰 (Progressive Gray)。VideoCoF 发现,推理帧不应只是一个静态的「定位图」,而应充当从「源视频」到「编辑视频」的时序过渡桥梁。

因此,团队设计了一种透明度渐变(如 0% → 25% → 50% → 75%)的灰色掩码。这种设计不仅明确了「哪里要改」,更给模型一种「变化正在发生」的动态暗示。

实验结果(Table 3)显示,相比于静态的红 / 黑掩码,渐变灰设计直接将指令遵循得分(Instruct Follow)从 7.5/7.8 拉升到了 8.97,证明了细节设计对模型性能的巨大影响。

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

效果展示:万物皆可改

VideoCoF 展现了强大的通用编辑能力,无论是增删改查,还是局部风格迁移,都能精准搞定:

  1. 多实例移除 (Multi-Instance Removal): 「移除左边穿米色裤子的年轻女性」 —— 指哪打哪,背景自动补全,绝不误伤旁人;
  2. 物体添加 (Object Addition):「在草地上凭空加一只白色的萨摩耶」 —— 从无到有,光影透视完美融合,仿佛它原本就在那里;
  3. 多实例物体替换: 无论是给人换一件牛仔外套,还是更换性别年龄,从老头换成女孩, 可以轻松完成;
  4. 局部风格迁移:给兔子换个「铜色皮肤」,把路牌从「School」改成「Hospital」,细节纹理都能完美保留。

VideoCoF 是一项通过「时序推理」统一视频编辑任务的开创性工作。它不仅解决了无 Mask 编辑的精度问题,还通过高效的数据利用(仅 50k 样本)和巧妙的 RoPE 设计,实现了低成本、高性能、长视频支持的视频编辑。对于社区而言,VideoCoF 证明了 Better Reasoning > More Data,为未来的视频生成与编辑研究提供了新的思路。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14923

(0)
上一篇 2025年12月23日 下午12:12
下一篇 2025年12月23日 下午12:13

相关推荐

  • LangGraph实战:构建高效Agentic工作流,解锁AI应用开发新范式

    用 Agentic 框架构建 AI 工作流 随着 GPT-5、Gemini 2.5 Pro 等强大 AI 模型的涌现,旨在高效利用这些模型的 Agentic 框架也日益增多。这类框架通过抽象化诸多复杂环节,极大地简化了与 AI 模型的协作,例如处理工具调用、管理智能体状态以及集成人工反馈循环。 本文将深入探讨其中一个可用的 Agentic AI 框架:Lan…

    2025年11月21日
    37300
  • 揭秘Prompt工程:一个简单技巧让AI准确率提升200%

    一个简单技巧,让你的 AI 准确率飙升 200% 为什么你的 AI 总是出错(以及如何修复) 想象一下:深夜加班赶项目,你问 AI 助手:“Who is the current Prime Minister of the UK?” 它自信地回答:“Boris Johnson.” 但你知道这已经过时了。你甚至在对话中提供了最新的信息,可它却置若罔闻,固执地依赖…

    2026年1月14日
    43200
  • 从Jupyter到Web应用:用Python、FastAPI与LangChain构建可部署的AI工具

    从Jupyter到Web应用:用Python、FastAPI与LangChain构建可部署的AI工具(第1/2部分) 为何需要将AI脚本转化为Web应用 在Jupyter Notebook中成功验证一个AI模型(如问答或文本摘要)后,其价值往往受限于本地环境。团队无法协作,用户无法访问,模型的价值难以释放。 核心在于:AI的价值不仅在于模型本身,更在于其可访…

    2025年11月30日
    42100
  • AI结对编程实战:Claude与Codex协同开发,效率提升10倍的魔法组合

    上周,我无意间组建了一支特别的开发团队。这支“团队”由我、Claude Code 和 Codex 组成,我们分坐在屏幕两侧,像两位彼此挑剔但又不得不合作的工程师。 说实话,效果堪称神奇。如果你想在不崩溃的情况下将开发速度提升一个数量级,这套组合可能是目前最接近真人结对编程体验的 AI 方案。 下面我将展示它的实际工作流程——不夸大,全是实战经验。 步骤 1:…

    2025年11月1日
    37500
  • 深度研究智能体:从信息搜索到自主科研的演进之路

    近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的“一次检索 + 一次生成”范式,难以支撑多步推理与长期研究流程,由此催生了深度研究(Deep Research, DR)这一新方向。 然而,随着相关工作的快速涌现,DR的概念也在迅速膨胀并趋于碎片化:不同工作在系统实现…

    2026年1月1日
    41700