VideoCoF：无需掩码的时序推理视频编辑框架，以50k数据实现SOTA性能与长视频外推

本文第一作者是 UTS 博士生杨向鹏，主要研究方向是视频生成和世界模型；第二作者是谢集，浙江大学的四年级本科生，主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授，主要研究方向为计算机视觉和模式识别。

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境：专家模型精度高但依赖 Mask，通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF，受 LLM「思维链」启发，通过「看 – 推理 – 编辑」的流程，仅需 50k 训练数据，就在多项任务上取得了 SOTA 效果，并完美支持长视频外推！

目前，模型、代码均已开源，4 步编辑一条视频，训练数据 VideoCoF-50k 预计本周内开源！

VideoCoF：无需掩码的时序推理视频编辑框架，以50k数据实现SOTA性能与长视频外推

论文链接： https://arxiv.org/abs/2512.07469
项目主页： https://videocof.github.io/
代码 / 模型： https://github.com/knightyxp/VideoCoF
Demo链接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛点：精度与通用的「两难困境」

在 AIGC 时代，视频编辑已经有了长足进步，但仍存在一个明显的痛点：

专家模型（Expert Models）：像医生做手术一样精准，但往往需要用户提供繁琐的 Mask，因此阻碍了自动化和统一化。
通用上下文学习模型（Unified In-Context Models）：虽然不需要 Mask，但在面对复杂的空间关系（比如「右边的那个男孩」）时，往往「眼神不好」，定位不准。

能不能既要高精度，又不要 Mask？VideoCoF 给出了肯定的答案。

核心创新：像人一样「先思考，后动手」

VideoCoF 的核心灵感来自于大语言模型（LLM）中的思维链（Chain-of-Thought）。研究团队认为，视频生成模型也应该具备类似的推理能力。

为此，他们提出了 Chain of Frames (CoF) 机制，将视频编辑过程重构为三个阶段：

Seeing（看）：输入原始视频。
Reasoning（推理）：模型先预测出「推理帧」（Reasoning Frame），即用高亮区域明确指出「哪里需要编辑」。
Editing（编辑）：基于推理结果，精准生成目标视频。

这种显式的推理过程，让模型学会了主动建立编辑指令与画面区域的对应关系，从而实现了无需 Mask 的高精度编辑。

时序 RoPE 对齐，实现长视频外推

除了推理能力，视频编辑的另一个难题是长度限制。很多模型只能编辑短视频，一旦视频变长，动作就会变形或崩坏。

VideoCoF 引入了独特的 RoPE（旋转位置编码）对齐策略：

巧妙地对齐了原视频 [1,F] 和编辑视频 [1,F] 的时间索引，同时将推理帧的时间索引设置为 0，避免了推理帧与编辑帧的索引冲突；
实现了「训练短视频（33 帧），推理长视频（140+ 帧）」的能力。

这意味着，用极小的成本训练出的模型，可以在推理时处理远超训练长度的视频，且保持动作流畅、无纹理突变和伪影。

实验验证：50k 数据「四两拨千斤」，性能全面 SOTA

除了架构设计的精妙，VideoCoF 最令人印象深刻的当属其惊人的数据效率。

为了验证效果，研究团队构建了一个包含添加、删除、替换及风格迁移的高质量实例级数据集，并在 VideoCoF-Bench 上进行了严格测评。

1. 以小博大：50k vs 100 万

VideoCoF：仅使用 50k (5 万) 视频对进行微调。
基线模型 (ICVE)：依赖庞大的 100 万视频预训练 + 15 万微调数据。

尽管训练数据量仅为基线的 1/20，VideoCoF 却实现了性能的反超：

指令遵循 (Instruct Follow)：得分高达 8.97 (满分 10)，显著优于 ICVE (7.79) 和 VACE (7.47)。这意味着模型能更精准地“听懂人话”，不会漏掉指令细节。
成功率 (Success Ratio)：达到了 76.36%，大幅领先于商业模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。

2. 为什么「推理」如此重要？（消融实验）

VideoCoF 的核心在于「先推理，再编辑」。那么，如果去掉推理帧，直接让模型硬算，效果会怎样？

研究团队进行了详细的消融实验（Ablation Study）。结果显示，相比于没有推理环节的 Naive Temporal in Context 基线：

引入 CoF (Chain of Frames) 后，指令遵循能力提升了近 1 分，成功率提升了 10% 以上。
引入 RoPE 索引解耦后，长视频外推的保真度（Preservation）和时序一致性（CLIP-F）均有显著提升。

这有力地证明了：显式的时序推理（See-Reason-Edit）不仅是锦上添花，更是实现高精度视频编辑的关键。

3. 推理帧长什么样？「五彩斑斓的灰」才是最优解

除了「要不要推理」，VideoCoF 团队还深入研究了「推理帧到底该长什么样」，是像分割模型那样用黑白掩码？还是像圈图那样用红圈？

在 Table 3 的消融实验中，团队对比了三种形式：

纯黑背景 (Black BG)：效果最差，因为扩散模型往往对极端的纯黑 / 纯白像素不敏感。
红色高亮 (Red Highlight)：效果中规中矩。
灰色高亮 (Gray Highlight)：表现优于红色。

最终杀器：渐变灰 (Progressive Gray)。VideoCoF 发现，推理帧不应只是一个静态的「定位图」，而应充当从「源视频」到「编辑视频」的时序过渡桥梁。

因此，团队设计了一种透明度渐变（如 0% → 25% → 50% → 75%）的灰色掩码。这种设计不仅明确了「哪里要改」，更给模型一种「变化正在发生」的动态暗示。

实验结果（Table 3）显示，相比于静态的红 / 黑掩码，渐变灰设计直接将指令遵循得分（Instruct Follow）从 7.5/7.8 拉升到了 8.97，证明了细节设计对模型性能的巨大影响。

效果展示：万物皆可改

VideoCoF 展现了强大的通用编辑能力，无论是增删改查，还是局部风格迁移，都能精准搞定：

多实例移除 (Multi-Instance Removal)：「移除左边穿米色裤子的年轻女性」 —— 指哪打哪，背景自动补全，绝不误伤旁人；
物体添加 (Object Addition)：「在草地上凭空加一只白色的萨摩耶」 —— 从无到有，光影透视完美融合，仿佛它原本就在那里；
多实例物体替换：无论是给人换一件牛仔外套，还是更换性别年龄，从老头换成女孩，可以轻松完成；
局部风格迁移：给兔子换个「铜色皮肤」，把路牌从「School」改成「Hospital」，细节纹理都能完美保留。

VideoCoF 是一项通过「时序推理」统一视频编辑任务的开创性工作。它不仅解决了无 Mask 编辑的精度问题，还通过高效的数据利用（仅 50k 样本）和巧妙的 RoPE 设计，实现了低成本、高性能、长视频支持的视频编辑。对于社区而言，VideoCoF 证明了 Better Reasoning > More Data，为未来的视频生成与编辑研究提供了新的思路。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14923

VideoCoF：无需掩码的时序推理视频编辑框架，以50k数据实现SOTA性能与长视频外推

痛点：精度与通用的「两难困境」

核心创新：像人一样「先思考，后动手」

时序 RoPE 对齐，实现长视频外推

实验验证：50k 数据「四两拨千斤」，性能全面 SOTA

1. 以小博大：50k vs 100 万

2. 为什么「推理」如此重要？（消融实验）

3. 推理帧长什么样？「五彩斑斓的灰」才是最优解

效果展示：万物皆可改

相关推荐

强化学习赋能3D生成：首个文本到3D的RL范式攻克几何与物理合理性难题

17岁高中生实现Ilya预言！Kimi团队“旋转”注意力机制，训练效率提升25%，马斯克都来围观

DeepSeek发布Engram条件记忆架构：MoE模型性能提升新路径，实习生主导突破性研究

别再把 AI 当“自动补全”了：代码智能体真正的用法被忽视了

实战指南：基于LangChain与FastAPI构建实时多工具AI智能体