LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

近年来,基于扩散模型的视频生成技术取得了显著进展,大幅提升了视频编辑的真实感与可控性。然而,在文字驱动的视频对象移除与添加领域,依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象,还需同时维持背景连续性、时序一致性以及语义匹配,构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域,这种强依赖不仅抬高了使用门槛,更严重限制了模型在真实应用场景中的实用性与泛化能力。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

为从根本上解决上述难题,来自清华大学、华为及中国科学技术大学的联合研究团队提出了LoVoRA(Learnable Object-aware Localization for Video Object Removal and Addition)框架。这是一个真正意义上仅凭文本提示即可驱动、无需任何掩码或参考帧辅助的视频对象编辑系统。LoVoRA的核心创新在于其能够通过文本指令自动精准定位编辑区域,并执行时序一致、背景自然的视频编辑操作。大量实验与用户评测证实,LoVoRA在编辑质量、背景一致性、时序稳定性等关键指标上均显著优于现有基线方法。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

**数据集构建:奠定高质量训练基础**

现有基于指令的视频编辑数据集,如InsViE、Ditto、Senoritia、ICVE-SFT等,虽在文本引导操作方面展现出先进性,但仍存在明显局限:空间与时间分辨率较低;由逐帧生成导致的背景不一致问题;以及对对象添加与移除场景的覆盖范围有限。为克服这些缺陷,研究团队构建了一个专门针对视频中对象级添加与擦除任务的高质量数据集,该数据集构成了LoVoRA框架的训练基石。数据集基于高保真图像编辑数据集NHR-Edit,通过一个精心设计的多级流水线合成为时间一致的视频编辑序列。相较于先前工作,该数据集提供了更优的背景一致性、精确的对象级时空掩码、以及与编辑语义高度匹配的鲁棒文本指令。此外,它还提供了密集的运动掩码监督,为LoVoRA中目标感知编辑定位模块的训练与评估提供了关键支持。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

具体而言,给定一个高质量图像编辑三元组(源图像Is、目标图像It、编辑指令p),团队通过统一的多阶段合成流水线将其转化为具备时空监督的视频编辑对(源视频Vs、目标视频Vt):

a. 使用基于文本的图像到视频生成器(如Wan2.2)在保持场景布局与背景一致性的前提下,将单帧图像扩展为时序连贯的源视频Vs。场景描述pscene由InternVL3模型提取,确保了文本与视觉语义的初步对齐。

b. 随后,针对编辑指令在源/目标图像的首帧上进行对象定位:通过Grounding-DINO获取目标边界框,并调用SAM2提取高质量二值分割掩码,经形态学平滑处理后得到初始掩码M1。

c. 为将静态掩码扩展为全视频的时序掩码流,采用GMFlow估计源视频的稠密光流,并对掩码进行反向光流拼接与传播。同时引入双向流一致性检测机制,以有效处理遮挡与位移误差,最终生成平滑且与运动相符的掩码序列{Mt}。

d. 最后,基于得到的掩码流、源视频及文本指令,利用VACE进行视频内填充以生成编辑后的目标视频Vt。此步骤在保证被编辑区域发生语义变化(对象移除或插入)的同时,也维护了背景与运动的全局一致性。

为确保语义与质量的稳定性,整个流水线还通过InternVL3自动生成并校验文本指令,并对生成样本应用面积与运动幅度阈值筛选,以剔除弱信号样本。最终构建的数据集包含了每对(Vs, Vt, p)所需的全部信息:时序掩码、像素级光流以及语义对齐的指令文本。这些密集的时空与语义监督为训练LoVoRA的可学习定位与编辑模块提供了至关重要的支持。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

**模型架构:统一端到端的文本驱动编辑**

LoVoRA的核心设计理念,是在一个统一的端到端框架内,仅凭文本指令即可完成视频中对象的移除与添加,而无需依赖任何推理阶段的掩码、参考帧或手工控制信号。为实现这一目标,团队构建了一个基于时空VAE与3D DiT(Diffusion Transformer)的视频编辑架构。模型首先将输入视频编码到潜空间,通过通道拼接方式同时接收原视频的潜变量与噪声潜变量。随后,3D DiT在文本指令的跨模态引导下,逐步对潜空间进行结构化重建,从而生成与语义一致、运动自然的编辑后视频。这一架构能够同时建模空间细节、时间一致性与文本语义,使LoVoRA在复杂场景中也能有效保持背景结构和时序连贯性。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

然而,仅靠文本指令本身并不足以让模型可靠地判断“应该在哪里进行编辑”。为此,团队进一步提出了一个轻量级的可学习对象定位机制——Diffusion Mask Predictor(DMP)。该模块从DiT的中间特征中学习预测一个随时间变化的软掩码,用于动态表征哪些区域与当前编辑指令最相关。通过在训练过程中结合数据集中提供的时序掩码监督,DMP逐渐学会将模型的编辑能力聚焦于目标对象上,而在推理阶段则无需任何显式掩码输入即可实现自动定位。这一机制有效规避了传统方法中常见的过度编辑或漏编辑问题,显著提升了空间精度与时序稳定性。

在基础编辑架构与可学习定位机制的协同作用下,LoVoRA实现了真正意义上的文本驱动、完全无需掩码的视频对象编辑。基础架构保障了整体视频的自然性与一致性,而可学习的对象定位机制则使模型能够精准理解文本语义并聚焦于关键区域。这使得LoVoRA在对象移除与添加两类核心任务中,均能生成高质量、语义一致、时序稳定的视频结果。

**实验与分析:验证卓越性能**

**定量分析:**

在DAVIS与LoVoRA-Bench的综合测试中,LoVoRA在文本对齐度、视频质量与VLM(视觉语言模型)评估(包括Prompt Following与Edit Quality)等关键指标上全面领先于主流视频编辑方法。无论是在对象移除还是对象添加任务中,LoVoRA在绝大多数指标上都取得了最佳或接近最佳的结果,充分体现了其在语义一致性、对象级操作精度、背景稳定性与运动连续性方面的显著优势。与Ditto等侧重于外观增强但容易牺牲局部准确性的模型相比,LoVoRA在保持整体画面美观的同时,大幅提升了编辑的可控性。而与依赖参考帧输入的Senorita等方法相比,LoVoRA在无任何辅助输入条件下依然展现出高度竞争力,有力证明了其可学习定位机制的有效性。总体而言,各项定量指标均验证了LoVoRA在文本理解、定位精度与编辑质量上的强大综合性能。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

**定性分析:**

从可视化结果中可以清晰观察到LoVoRA在复杂场景下对对象的精准定位与自然编辑能力。对于移除任务,LoVoRA能够干净地擦除目标对象,几乎不留残影或造成结构性破坏,同时完整保留原有的纹理、光照与背景几何信息。对于添加任务,所插入的对象在颜色、光影、透视关系与运动轨迹上都能与环境实现无缝融合,即便在遮挡关系复杂、快速运动等困难场景中也能保持稳定。相比之下,多种基线方法常出现模糊边界、背景扭曲、时序跳变或编辑区域偏移等问题。LoVoRA在这些方面均表现出明显改善,展现出更高的视觉真实感与时空一致性。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

综上所述,LoVoRA框架通过创新的可学习对象定位机制与端到端的编辑架构,成功突破了文本驱动视频对象编辑的关键技术瓶颈,为实现更智能、更易用的视频编辑工具奠定了坚实基础。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/5146

(0)
上一篇 2025年12月11日 下午2:31
下一篇 2025年12月11日 下午3:00

相关推荐

  • 遥感模型微调技术演进:从全参数到混合范式的全景解析

    近年来,在大数据与大模型的共同驱动下,遥感图像解译领域正经历着深刻的范式转变。传统上,研究重点多集中于模型结构本身的创新设计,然而随着计算资源的普及和预训练技术的成熟,业界逐渐转向「基础模型 + 微调」这一更具效率和应用潜力的新范式。这一转变的核心在于,通过利用在大规模通用数据上预训练的模型作为强大的特征提取器,再针对特定下游任务进行精细化调整,能够在显著降…

    2025年11月2日
    7500
  • 2025年中国人工智能合规治理全景:从法律框架到技术落地的系统性变革

    2025年是中国人工智能治理体系从顶层设计迈向精细化实施的关键转折点。这一年,国家密集出台了一系列法律法规、国家标准和专项指引,构建起“法律-规章-国标-框架”四位一体的协同治理体系,标志着我国AI治理正式从“原则性引导”阶段进入“精细化落地”阶段。对企业而言,合规已从过去的“可选项”转变为关乎生存发展的“必选项”。 从法律层面看,2025年10月29日《网…

    2025年11月13日
    8400
  • 阿里Qwen3-TTS深度解析:多语言方言语音合成的技术突破与产业影响

    近日,阿里巴巴继开源Z-Image模型后,正式发布了Qwen3-TTS语音合成模型(版本号2025-11-27),标志着其在多模态AI领域的技术布局进一步深化。该模型不仅解决了语音合成领域的多个核心痛点,更在多语言支持、方言适配、音色丰富度等方面实现了显著突破,为全球语音技术应用带来了新的可能性。 从技术架构层面分析,Qwen3-TTS的核心创新体现在三个维…

    2025年12月6日
    9500
  • ICML 2026征稿新规深度解析:透明度、责任与学术伦理的范式演进

    作为机器学习领域的顶级会议,国际机器学习大会(ICML)每年都引领着学术研究的前沿方向。近日,ICML 2026(将于2026年7月7日至12日在韩国首尔举办)公布了详细的征稿指南与政策更新,这些变化不仅关乎投稿流程,更折射出整个学术社区在透明度、责任伦理与评审机制上的深刻转型。本文将从多个维度深入剖析这些新规,探讨其对研究者、评审体系乃至整个AI生态的长期…

    2025年11月6日
    40000
  • 华为诺亚方舟实验室突破Transformer推理瓶颈:高阶注意力机制Nexus的架构革命

    在人工智能领域,Transformer架构凭借其强大的序列建模能力,已成为大语言模型(LLM)和各类生成式AI应用的基石。然而,随着模型规模和应用场景的不断扩展,其核心组件——自注意力机制(Self-Attention)在处理复杂逻辑推理任务时的局限性日益凸显。传统注意力机制本质上是一种基于配对比较的线性投影操作,擅长捕捉长距离依赖和表面关联,但在面对需要多…

    2025年12月5日
    10400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注