LoVoRA：突破文本驱动视频编辑瓶颈，无需掩码实现精准对象操作

近年来，基于扩散模型的视频生成技术取得了显著进展，大幅提升了视频编辑的真实感与可控性。然而，在文字驱动的视频对象移除与添加领域，依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象，还需同时维持背景连续性、时序一致性以及语义匹配，构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域，这种强依赖不仅抬高了使用门槛，更严重限制了模型在真实应用场景中的实用性与泛化能力。

为从根本上解决上述难题，来自清华大学、华为及中国科学技术大学的联合研究团队提出了LoVoRA（Learnable Object-aware Localization for Video Object Removal and Addition）框架。这是一个真正意义上仅凭文本提示即可驱动、无需任何掩码或参考帧辅助的视频对象编辑系统。LoVoRA的核心创新在于其能够通过文本指令自动精准定位编辑区域，并执行时序一致、背景自然的视频编辑操作。大量实验与用户评测证实，LoVoRA在编辑质量、背景一致性、时序稳定性等关键指标上均显著优于现有基线方法。

**数据集构建：奠定高质量训练基础**

现有基于指令的视频编辑数据集，如InsViE、Ditto、Senoritia、ICVE-SFT等，虽在文本引导操作方面展现出先进性，但仍存在明显局限：空间与时间分辨率较低；由逐帧生成导致的背景不一致问题；以及对对象添加与移除场景的覆盖范围有限。为克服这些缺陷，研究团队构建了一个专门针对视频中对象级添加与擦除任务的高质量数据集，该数据集构成了LoVoRA框架的训练基石。数据集基于高保真图像编辑数据集NHR-Edit，通过一个精心设计的多级流水线合成为时间一致的视频编辑序列。相较于先前工作，该数据集提供了更优的背景一致性、精确的对象级时空掩码、以及与编辑语义高度匹配的鲁棒文本指令。此外，它还提供了密集的运动掩码监督，为LoVoRA中目标感知编辑定位模块的训练与评估提供了关键支持。

具体而言，给定一个高质量图像编辑三元组（源图像Is、目标图像It、编辑指令p），团队通过统一的多阶段合成流水线将其转化为具备时空监督的视频编辑对（源视频Vs、目标视频Vt）：

a. 使用基于文本的图像到视频生成器（如Wan2.2）在保持场景布局与背景一致性的前提下，将单帧图像扩展为时序连贯的源视频Vs。场景描述pscene由InternVL3模型提取，确保了文本与视觉语义的初步对齐。

b. 随后，针对编辑指令在源/目标图像的首帧上进行对象定位：通过Grounding-DINO获取目标边界框，并调用SAM2提取高质量二值分割掩码，经形态学平滑处理后得到初始掩码M1。

c. 为将静态掩码扩展为全视频的时序掩码流，采用GMFlow估计源视频的稠密光流，并对掩码进行反向光流拼接与传播。同时引入双向流一致性检测机制，以有效处理遮挡与位移误差，最终生成平滑且与运动相符的掩码序列{Mt}。

d. 最后，基于得到的掩码流、源视频及文本指令，利用VACE进行视频内填充以生成编辑后的目标视频Vt。此步骤在保证被编辑区域发生语义变化（对象移除或插入）的同时，也维护了背景与运动的全局一致性。

为确保语义与质量的稳定性，整个流水线还通过InternVL3自动生成并校验文本指令，并对生成样本应用面积与运动幅度阈值筛选，以剔除弱信号样本。最终构建的数据集包含了每对（Vs, Vt, p）所需的全部信息：时序掩码、像素级光流以及语义对齐的指令文本。这些密集的时空与语义监督为训练LoVoRA的可学习定位与编辑模块提供了至关重要的支持。

**模型架构：统一端到端的文本驱动编辑**

LoVoRA的核心设计理念，是在一个统一的端到端框架内，仅凭文本指令即可完成视频中对象的移除与添加，而无需依赖任何推理阶段的掩码、参考帧或手工控制信号。为实现这一目标，团队构建了一个基于时空VAE与3D DiT（Diffusion Transformer）的视频编辑架构。模型首先将输入视频编码到潜空间，通过通道拼接方式同时接收原视频的潜变量与噪声潜变量。随后，3D DiT在文本指令的跨模态引导下，逐步对潜空间进行结构化重建，从而生成与语义一致、运动自然的编辑后视频。这一架构能够同时建模空间细节、时间一致性与文本语义，使LoVoRA在复杂场景中也能有效保持背景结构和时序连贯性。

然而，仅靠文本指令本身并不足以让模型可靠地判断“应该在哪里进行编辑”。为此，团队进一步提出了一个轻量级的可学习对象定位机制——Diffusion Mask Predictor（DMP）。该模块从DiT的中间特征中学习预测一个随时间变化的软掩码，用于动态表征哪些区域与当前编辑指令最相关。通过在训练过程中结合数据集中提供的时序掩码监督，DMP逐渐学会将模型的编辑能力聚焦于目标对象上，而在推理阶段则无需任何显式掩码输入即可实现自动定位。这一机制有效规避了传统方法中常见的过度编辑或漏编辑问题，显著提升了空间精度与时序稳定性。

在基础编辑架构与可学习定位机制的协同作用下，LoVoRA实现了真正意义上的文本驱动、完全无需掩码的视频对象编辑。基础架构保障了整体视频的自然性与一致性，而可学习的对象定位机制则使模型能够精准理解文本语义并聚焦于关键区域。这使得LoVoRA在对象移除与添加两类核心任务中，均能生成高质量、语义一致、时序稳定的视频结果。

**实验与分析：验证卓越性能**

**定量分析：**

在DAVIS与LoVoRA-Bench的综合测试中，LoVoRA在文本对齐度、视频质量与VLM（视觉语言模型）评估（包括Prompt Following与Edit Quality）等关键指标上全面领先于主流视频编辑方法。无论是在对象移除还是对象添加任务中，LoVoRA在绝大多数指标上都取得了最佳或接近最佳的结果，充分体现了其在语义一致性、对象级操作精度、背景稳定性与运动连续性方面的显著优势。与Ditto等侧重于外观增强但容易牺牲局部准确性的模型相比，LoVoRA在保持整体画面美观的同时，大幅提升了编辑的可控性。而与依赖参考帧输入的Senorita等方法相比，LoVoRA在无任何辅助输入条件下依然展现出高度竞争力，有力证明了其可学习定位机制的有效性。总体而言，各项定量指标均验证了LoVoRA在文本理解、定位精度与编辑质量上的强大综合性能。

**定性分析：**

从可视化结果中可以清晰观察到LoVoRA在复杂场景下对对象的精准定位与自然编辑能力。对于移除任务，LoVoRA能够干净地擦除目标对象，几乎不留残影或造成结构性破坏，同时完整保留原有的纹理、光照与背景几何信息。对于添加任务，所插入的对象在颜色、光影、透视关系与运动轨迹上都能与环境实现无缝融合，即便在遮挡关系复杂、快速运动等困难场景中也能保持稳定。相比之下，多种基线方法常出现模糊边界、背景扭曲、时序跳变或编辑区域偏移等问题。LoVoRA在这些方面均表现出明显改善，展现出更高的视觉真实感与时空一致性。