VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF,受 LLM「思维链」启发,通过「看 – 推理 – 编辑」的流程,仅需 50k 训练数据,就在多项任务上取得了 SOTA 效果,并完美支持长视频外推

目前,模型、代码均已开源,4 步编辑一条视频,训练数据 VideoCoF-50k 预计本周内开源!

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
  • 论文链接: https://arxiv.org/abs/2512.07469
  • 项目主页: https://videocof.github.io/
  • 代码 / 模型: https://github.com/knightyxp/VideoCoF
  • Demo链接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛点:精度与通用的「两难困境」

在 AIGC 时代,视频编辑已经有了长足进步,但仍存在一个明显的痛点:

  • 专家模型(Expert Models): 像医生做手术一样精准,但往往需要用户提供繁琐的 Mask,因此阻碍了自动化和统一化。
  • 通用上下文学习模型(Unified In-Context Models): 虽然不需要 Mask,但在面对复杂的空间关系(比如「右边的那个男孩」)时,往往「眼神不好」,定位不准。

能不能既要高精度,又不要 Mask?VideoCoF 给出了肯定的答案。

核心创新:像人一样「先思考,后动手」

VideoCoF 的核心灵感来自于大语言模型(LLM)中的思维链(Chain-of-Thought)。研究团队认为,视频生成模型也应该具备类似的推理能力。

为此,他们提出了 Chain of Frames (CoF) 机制,将视频编辑过程重构为三个阶段:

  1. Seeing(看): 输入原始视频。
  2. Reasoning(推理): 模型先预测出「推理帧」(Reasoning Frame),即用高亮区域明确指出「哪里需要编辑」。
  3. Editing(编辑): 基于推理结果,精准生成目标视频。
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

这种显式的推理过程,让模型学会了主动建立编辑指令与画面区域的对应关系,从而实现了无需 Mask 的高精度编辑。

时序 RoPE 对齐,实现长视频外推

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

除了推理能力,视频编辑的另一个难题是长度限制。很多模型只能编辑短视频,一旦视频变长,动作就会变形或崩坏。

VideoCoF 引入了独特的 RoPE(旋转位置编码)对齐策略:

  • 巧妙地对齐了原视频 [1,F] 和编辑视频 [1,F] 的时间索引,同时将推理帧的时间索引设置为 0,避免了推理帧与编辑帧的索引冲突;
  • 实现了「训练短视频(33 帧),推理长视频(140+ 帧)」的能力。

这意味着,用极小的成本训练出的模型,可以在推理时处理远超训练长度的视频,且保持动作流畅、无纹理突变和伪影。

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

实验验证:50k 数据「四两拨千斤」,性能全面 SOTA

除了架构设计的精妙,VideoCoF 最令人印象深刻的当属其惊人的数据效率。

为了验证效果,研究团队构建了一个包含添加、删除、替换及风格迁移的高质量实例级数据集,并在 VideoCoF-Bench 上进行了严格测评。

1. 以小博大:50k vs 100 万

  • VideoCoF: 仅使用 50k (5 万) 视频对进行微调。
  • 基线模型 (ICVE): 依赖庞大的 100 万视频预训练 + 15 万微调数据。

尽管训练数据量仅为基线的 1/20,VideoCoF 却实现了性能的反超:

  • 指令遵循 (Instruct Follow): 得分高达 8.97 (满分 10),显著优于 ICVE (7.79) 和 VACE (7.47)。这意味着模型能更精准地“听懂人话”,不会漏掉指令细节。
  • 成功率 (Success Ratio): 达到了 76.36%,大幅领先于商业模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

2. 为什么「推理」如此重要?(消融实验)

VideoCoF 的核心在于「先推理,再编辑」。那么,如果去掉推理帧,直接让模型硬算,效果会怎样?

研究团队进行了详细的消融实验(Ablation Study)。结果显示,相比于没有推理环节的 Naive Temporal in Context 基线:

  • 引入 CoF (Chain of Frames) 后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
  • 引入 RoPE 索引解耦后,长视频外推的保真度(Preservation)和时序一致性(CLIP-F)均有显著提升。

这有力地证明了:显式的时序推理(See-Reason-Edit)不仅是锦上添花,更是实现高精度视频编辑的关键。

3. 推理帧长什么样?「五彩斑斓的灰」才是最优解

除了「要不要推理」,VideoCoF 团队还深入研究了「推理帧到底该长什么样」,是像分割模型那样用黑白掩码?还是像圈图那样用红圈?

在 Table 3 的消融实验中,团队对比了三种形式:

  • 纯黑背景 (Black BG): 效果最差,因为扩散模型往往对极端的纯黑 / 纯白像素不敏感。
  • 红色高亮 (Red Highlight): 效果中规中矩。
  • 灰色高亮 (Gray Highlight): 表现优于红色。

最终杀器:渐变灰 (Progressive Gray)。VideoCoF 发现,推理帧不应只是一个静态的「定位图」,而应充当从「源视频」到「编辑视频」的时序过渡桥梁。

因此,团队设计了一种透明度渐变(如 0% → 25% → 50% → 75%)的灰色掩码。这种设计不仅明确了「哪里要改」,更给模型一种「变化正在发生」的动态暗示。

实验结果(Table 3)显示,相比于静态的红 / 黑掩码,渐变灰设计直接将指令遵循得分(Instruct Follow)从 7.5/7.8 拉升到了 8.97,证明了细节设计对模型性能的巨大影响。

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

效果展示:万物皆可改

VideoCoF 展现了强大的通用编辑能力,无论是增删改查,还是局部风格迁移,都能精准搞定:

  1. 多实例移除 (Multi-Instance Removal): 「移除左边穿米色裤子的年轻女性」 —— 指哪打哪,背景自动补全,绝不误伤旁人;
  2. 物体添加 (Object Addition):「在草地上凭空加一只白色的萨摩耶」 —— 从无到有,光影透视完美融合,仿佛它原本就在那里;
  3. 多实例物体替换: 无论是给人换一件牛仔外套,还是更换性别年龄,从老头换成女孩, 可以轻松完成;
  4. 局部风格迁移:给兔子换个「铜色皮肤」,把路牌从「School」改成「Hospital」,细节纹理都能完美保留。

VideoCoF 是一项通过「时序推理」统一视频编辑任务的开创性工作。它不仅解决了无 Mask 编辑的精度问题,还通过高效的数据利用(仅 50k 样本)和巧妙的 RoPE 设计,实现了低成本、高性能、长视频支持的视频编辑。对于社区而言,VideoCoF 证明了 Better Reasoning > More Data,为未来的视频生成与编辑研究提供了新的思路。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14923

(0)
上一篇 2025年12月23日 下午12:12
下一篇 2025年12月23日 下午12:13

相关推荐

  • 具身智能新纪元:LLMs与世界模型融合如何重塑物理世界交互

    本文全面探讨具身智能(Embodied AI) 的基础与前沿进展,核心聚焦大语言模型/ 多模态大模型 与世界模型(WMs ) 对具身智能的赋能作用 ——LLMs/MLLMs 通过语义推理和任务分解强化具身认知 ,WMs 通过构建外部世界的内部表征和未来预测 支撑物理合规交互,二者融合形成的MLLM-WM 联合架构 成为突破复杂物理世界任务的关键方向。 具身智…

    2025年12月23日
    10000
  • 构建智能数据库对话助手:基于RAG的Text-to-SQL聊天机器人实战

    本项目构建了一个由 AI 驱动的聊天机器人,能够将自然语言问题转换为 SQL 查询,并直接从 SQLite 数据库中检索答案。该应用结合了 LangChain、Hugging Face Embeddings 和 Chroma 向量存储,通过检索增强生成(RAG)工作流,将非结构化的用户输入与结构化数据库连接起来,并配备了 FastAPI 后端与 Stream…

    2025年11月4日
    9100
  • 小模型突破计算瓶颈:WorldModel-Qwen实现推理中WASM代码执行

    最近,开发者 bigattichouse 分享了一个有趣的实验:让 Qwen-0.6B 这样的小模型在推理过程中生成并执行 WASM 代码,从而获得确定性的计算结果。 这个项目的灵感借鉴了人类思维。在关于 AGI 与 LLM 智能的讨论中,“世界模型”的概念变得越来越重要。就像人类接球时大脑会建立物理模型一样,AI 模型也需要某种形式的世界建模能力。但对于 …

    大模型工程 2026年1月17日
    7100
  • 北京版幻方开源SOTA代码大模型IQuest-Coder-V1:40B参数性能超Opus-4.5/GPT-5.2,单张3090可运行

    IQuest-Coder-V1:性能超群的代码大模型 近期,一个名为 IQuest-Coder-V1 的代码大模型系列在科技领域引发广泛关注。 在最新的SWE-Bench Verified榜单中,其40B参数版本取得了81.4%的成绩,表现超越了Claude Opus-4.5与GPT-5.2等模型。 除了基准测试成绩,其实际代码生成能力同样引人注目。例如,当…

    2026年1月2日
    8100
  • Meta AI基础设施十年演进:从GPU集群到自研芯片的下一代蓝图

    关键词:基础设施演进、AI集群、大语言模型、GPU扩展、自研芯片 我们仍处于人工智能工作负载演进和应用的早期阶段。过去几年我们一直忙碌不停,而未来几年的发展速度将更快。人工智能对硬件提出的需求,丝毫没有放缓的迹象。 在过去的21年里,Meta实现了指数级增长,从一个连接美国几所大学数千人的小型社交网络,发展成为拥有多款应用程序和新型硬件产品、服务全球超过34…

    2天前
    4000