VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。

现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的研究团队提出了一种全新的视频编辑框架 VideoCoF,受 LLM「思维链」启发,通过「看 – 推理 – 编辑」的流程,仅需 50k 训练数据,就在多项任务上取得了 SOTA 效果,并完美支持长视频外推

目前,模型、代码均已开源,4 步编辑一条视频,训练数据 VideoCoF-50k 预计本周内开源!

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
  • 论文链接: https://arxiv.org/abs/2512.07469
  • 项目主页: https://videocof.github.io/
  • 代码 / 模型: https://github.com/knightyxp/VideoCoF
  • Demo链接: https://huggingface.co/spaces/XiangpengYang/VideoCoF

痛点:精度与通用的「两难困境」

在 AIGC 时代,视频编辑已经有了长足进步,但仍存在一个明显的痛点:

  • 专家模型(Expert Models): 像医生做手术一样精准,但往往需要用户提供繁琐的 Mask,因此阻碍了自动化和统一化。
  • 通用上下文学习模型(Unified In-Context Models): 虽然不需要 Mask,但在面对复杂的空间关系(比如「右边的那个男孩」)时,往往「眼神不好」,定位不准。

能不能既要高精度,又不要 Mask?VideoCoF 给出了肯定的答案。

核心创新:像人一样「先思考,后动手」

VideoCoF 的核心灵感来自于大语言模型(LLM)中的思维链(Chain-of-Thought)。研究团队认为,视频生成模型也应该具备类似的推理能力。

为此,他们提出了 Chain of Frames (CoF) 机制,将视频编辑过程重构为三个阶段:

  1. Seeing(看): 输入原始视频。
  2. Reasoning(推理): 模型先预测出「推理帧」(Reasoning Frame),即用高亮区域明确指出「哪里需要编辑」。
  3. Editing(编辑): 基于推理结果,精准生成目标视频。
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

这种显式的推理过程,让模型学会了主动建立编辑指令与画面区域的对应关系,从而实现了无需 Mask 的高精度编辑。

时序 RoPE 对齐,实现长视频外推

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

除了推理能力,视频编辑的另一个难题是长度限制。很多模型只能编辑短视频,一旦视频变长,动作就会变形或崩坏。

VideoCoF 引入了独特的 RoPE(旋转位置编码)对齐策略:

  • 巧妙地对齐了原视频 [1,F] 和编辑视频 [1,F] 的时间索引,同时将推理帧的时间索引设置为 0,避免了推理帧与编辑帧的索引冲突;
  • 实现了「训练短视频(33 帧),推理长视频(140+ 帧)」的能力。

这意味着,用极小的成本训练出的模型,可以在推理时处理远超训练长度的视频,且保持动作流畅、无纹理突变和伪影。

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

实验验证:50k 数据「四两拨千斤」,性能全面 SOTA

除了架构设计的精妙,VideoCoF 最令人印象深刻的当属其惊人的数据效率。

为了验证效果,研究团队构建了一个包含添加、删除、替换及风格迁移的高质量实例级数据集,并在 VideoCoF-Bench 上进行了严格测评。

1. 以小博大:50k vs 100 万

  • VideoCoF: 仅使用 50k (5 万) 视频对进行微调。
  • 基线模型 (ICVE): 依赖庞大的 100 万视频预训练 + 15 万微调数据。

尽管训练数据量仅为基线的 1/20,VideoCoF 却实现了性能的反超:

  • 指令遵循 (Instruct Follow): 得分高达 8.97 (满分 10),显著优于 ICVE (7.79) 和 VACE (7.47)。这意味着模型能更精准地“听懂人话”,不会漏掉指令细节。
  • 成功率 (Success Ratio): 达到了 76.36%,大幅领先于商业模型 Lucy Edit (29.64%) 和 ICVE (57.76%)。
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

2. 为什么「推理」如此重要?(消融实验)

VideoCoF 的核心在于「先推理,再编辑」。那么,如果去掉推理帧,直接让模型硬算,效果会怎样?

研究团队进行了详细的消融实验(Ablation Study)。结果显示,相比于没有推理环节的 Naive Temporal in Context 基线:

  • 引入 CoF (Chain of Frames) 后,指令遵循能力提升了近 1 分,成功率提升了 10% 以上。
  • 引入 RoPE 索引解耦后,长视频外推的保真度(Preservation)和时序一致性(CLIP-F)均有显著提升。

这有力地证明了:显式的时序推理(See-Reason-Edit)不仅是锦上添花,更是实现高精度视频编辑的关键。

3. 推理帧长什么样?「五彩斑斓的灰」才是最优解

除了「要不要推理」,VideoCoF 团队还深入研究了「推理帧到底该长什么样」,是像分割模型那样用黑白掩码?还是像圈图那样用红圈?

在 Table 3 的消融实验中,团队对比了三种形式:

  • 纯黑背景 (Black BG): 效果最差,因为扩散模型往往对极端的纯黑 / 纯白像素不敏感。
  • 红色高亮 (Red Highlight): 效果中规中矩。
  • 灰色高亮 (Gray Highlight): 表现优于红色。

最终杀器:渐变灰 (Progressive Gray)。VideoCoF 发现,推理帧不应只是一个静态的「定位图」,而应充当从「源视频」到「编辑视频」的时序过渡桥梁。

因此,团队设计了一种透明度渐变(如 0% → 25% → 50% → 75%)的灰色掩码。这种设计不仅明确了「哪里要改」,更给模型一种「变化正在发生」的动态暗示。

实验结果(Table 3)显示,相比于静态的红 / 黑掩码,渐变灰设计直接将指令遵循得分(Instruct Follow)从 7.5/7.8 拉升到了 8.97,证明了细节设计对模型性能的巨大影响。

VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推

效果展示:万物皆可改

VideoCoF 展现了强大的通用编辑能力,无论是增删改查,还是局部风格迁移,都能精准搞定:

  1. 多实例移除 (Multi-Instance Removal): 「移除左边穿米色裤子的年轻女性」 —— 指哪打哪,背景自动补全,绝不误伤旁人;
  2. 物体添加 (Object Addition):「在草地上凭空加一只白色的萨摩耶」 —— 从无到有,光影透视完美融合,仿佛它原本就在那里;
  3. 多实例物体替换: 无论是给人换一件牛仔外套,还是更换性别年龄,从老头换成女孩, 可以轻松完成;
  4. 局部风格迁移:给兔子换个「铜色皮肤」,把路牌从「School」改成「Hospital」,细节纹理都能完美保留。

VideoCoF 是一项通过「时序推理」统一视频编辑任务的开创性工作。它不仅解决了无 Mask 编辑的精度问题,还通过高效的数据利用(仅 50k 样本)和巧妙的 RoPE 设计,实现了低成本、高性能、长视频支持的视频编辑。对于社区而言,VideoCoF 证明了 Better Reasoning > More Data,为未来的视频生成与编辑研究提供了新的思路。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14923

(0)
上一篇 2025年12月23日 下午12:12
下一篇 2025年12月23日 下午12:13

相关推荐

  • 强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题

    强化学习赋能3D生成:首个文本到3D的RL范式攻克几何与物理合理性难题 在大语言模型和文生图领域,强化学习(RL)已成为提升模型思维链与生成质量的关键方法。但当我们将目光转向更为复杂的文本到3D生成时,这套方法还会管用吗? 近期,一项由西北工业大学、北京大学、香港中文大学、上海人工智能实验室、香港科技大学合作开展的研究系统性探索了这一重要问题。 论文链接: …

    2025年12月20日
    18600
  • 17岁高中生实现Ilya预言!Kimi团队“旋转”注意力机制,训练效率提升25%,马斯克都来围观

    17岁高中生实现Ilya预言:Kimi团队“旋转”注意力机制,训练效率提升25% 一位17岁的高中生,以共同第一作者的身份,在Kimi团队将OpenAI首席科学家Ilya Sutskever提出的一个设想变成了现实。 Ilya曾有一个著名的预言:将按时间顺序处理数据的LSTM网络“旋转90度”——即把时间轴替换为模型的深度轴——就演变成了当今主流的残差网络(…

    1天前
    17100
  • DeepSeek发布Engram条件记忆架构:MoE模型性能提升新路径,实习生主导突破性研究

    这一记忆架构有望成为新的Scaling路径。 智东西1月13日报道,昨晚,DeepSeek再次开源,并发布一篇新论文。此次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北京大学王选计算机研究所的赵东岩和张辉帅教授均在论文中署名。 Engram架构的核心…

    2026年1月13日
    23500
  • 别再把 AI 当“自动补全”了:代码智能体真正的用法被忽视了

    写出更简洁、更聪明的 Python 函数 许多开发者,包括经验丰富的老手,在编写 Python 函数时都会不自觉地陷入一些常见陷阱。这些做法短期内或许不会引发问题,但随着代码库的增长,它们会导致代码变得难以维护、效率低下。 如果你对 Python 函数的理解还停留在“能跑就行”,现在是时候升级你的认知了。了解这些常见误区并采用最佳实践,能让你的代码焕然一新。…

    2025年11月10日
    23800
  • 实战指南:基于LangChain与FastAPI构建实时多工具AI智能体

    构建一个可用于生产的、工具增强型 LLM Agent,使其具备 Token 流式输出、代码执行、搜索能力,并利用 FastAPI 实现高性能 API 服务。 ChatGPT 的出现带来了震撼的体验,但开发者很快开始思考:如何超越“聊天”本身?我们能否构建一个能够实时推理、联网搜索、执行代码、查询数据,并像人类打字一样流式响应的智能体? 答案是肯定的。通过结合…

    2025年12月13日
    28100