LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

近年来,基于扩散模型的视频生成技术取得了显著进展,大幅提升了视频编辑的真实感与可控性。然而,在文字驱动的视频对象移除与添加领域,依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象,还需同时维持背景连续性、时序一致性以及语义匹配,构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域,这种强依赖不仅抬高了使用门槛,更严重限制了模型在真实应用场景中的实用性与泛化能力。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

为从根本上解决上述难题,来自清华大学、华为及中国科学技术大学的联合研究团队提出了LoVoRA(Learnable Object-aware Localization for Video Object Removal and Addition)框架。这是一个真正意义上仅凭文本提示即可驱动、无需任何掩码或参考帧辅助的视频对象编辑系统。LoVoRA的核心创新在于其能够通过文本指令自动精准定位编辑区域,并执行时序一致、背景自然的视频编辑操作。大量实验与用户评测证实,LoVoRA在编辑质量、背景一致性、时序稳定性等关键指标上均显著优于现有基线方法。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

**数据集构建:奠定高质量训练基础**

现有基于指令的视频编辑数据集,如InsViE、Ditto、Senoritia、ICVE-SFT等,虽在文本引导操作方面展现出先进性,但仍存在明显局限:空间与时间分辨率较低;由逐帧生成导致的背景不一致问题;以及对对象添加与移除场景的覆盖范围有限。为克服这些缺陷,研究团队构建了一个专门针对视频中对象级添加与擦除任务的高质量数据集,该数据集构成了LoVoRA框架的训练基石。数据集基于高保真图像编辑数据集NHR-Edit,通过一个精心设计的多级流水线合成为时间一致的视频编辑序列。相较于先前工作,该数据集提供了更优的背景一致性、精确的对象级时空掩码、以及与编辑语义高度匹配的鲁棒文本指令。此外,它还提供了密集的运动掩码监督,为LoVoRA中目标感知编辑定位模块的训练与评估提供了关键支持。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

具体而言,给定一个高质量图像编辑三元组(源图像Is、目标图像It、编辑指令p),团队通过统一的多阶段合成流水线将其转化为具备时空监督的视频编辑对(源视频Vs、目标视频Vt):

a. 使用基于文本的图像到视频生成器(如Wan2.2)在保持场景布局与背景一致性的前提下,将单帧图像扩展为时序连贯的源视频Vs。场景描述pscene由InternVL3模型提取,确保了文本与视觉语义的初步对齐。

b. 随后,针对编辑指令在源/目标图像的首帧上进行对象定位:通过Grounding-DINO获取目标边界框,并调用SAM2提取高质量二值分割掩码,经形态学平滑处理后得到初始掩码M1。

c. 为将静态掩码扩展为全视频的时序掩码流,采用GMFlow估计源视频的稠密光流,并对掩码进行反向光流拼接与传播。同时引入双向流一致性检测机制,以有效处理遮挡与位移误差,最终生成平滑且与运动相符的掩码序列{Mt}。

d. 最后,基于得到的掩码流、源视频及文本指令,利用VACE进行视频内填充以生成编辑后的目标视频Vt。此步骤在保证被编辑区域发生语义变化(对象移除或插入)的同时,也维护了背景与运动的全局一致性。

为确保语义与质量的稳定性,整个流水线还通过InternVL3自动生成并校验文本指令,并对生成样本应用面积与运动幅度阈值筛选,以剔除弱信号样本。最终构建的数据集包含了每对(Vs, Vt, p)所需的全部信息:时序掩码、像素级光流以及语义对齐的指令文本。这些密集的时空与语义监督为训练LoVoRA的可学习定位与编辑模块提供了至关重要的支持。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

**模型架构:统一端到端的文本驱动编辑**

LoVoRA的核心设计理念,是在一个统一的端到端框架内,仅凭文本指令即可完成视频中对象的移除与添加,而无需依赖任何推理阶段的掩码、参考帧或手工控制信号。为实现这一目标,团队构建了一个基于时空VAE与3D DiT(Diffusion Transformer)的视频编辑架构。模型首先将输入视频编码到潜空间,通过通道拼接方式同时接收原视频的潜变量与噪声潜变量。随后,3D DiT在文本指令的跨模态引导下,逐步对潜空间进行结构化重建,从而生成与语义一致、运动自然的编辑后视频。这一架构能够同时建模空间细节、时间一致性与文本语义,使LoVoRA在复杂场景中也能有效保持背景结构和时序连贯性。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

然而,仅靠文本指令本身并不足以让模型可靠地判断“应该在哪里进行编辑”。为此,团队进一步提出了一个轻量级的可学习对象定位机制——Diffusion Mask Predictor(DMP)。该模块从DiT的中间特征中学习预测一个随时间变化的软掩码,用于动态表征哪些区域与当前编辑指令最相关。通过在训练过程中结合数据集中提供的时序掩码监督,DMP逐渐学会将模型的编辑能力聚焦于目标对象上,而在推理阶段则无需任何显式掩码输入即可实现自动定位。这一机制有效规避了传统方法中常见的过度编辑或漏编辑问题,显著提升了空间精度与时序稳定性。

在基础编辑架构与可学习定位机制的协同作用下,LoVoRA实现了真正意义上的文本驱动、完全无需掩码的视频对象编辑。基础架构保障了整体视频的自然性与一致性,而可学习的对象定位机制则使模型能够精准理解文本语义并聚焦于关键区域。这使得LoVoRA在对象移除与添加两类核心任务中,均能生成高质量、语义一致、时序稳定的视频结果。

**实验与分析:验证卓越性能**

**定量分析:**

在DAVIS与LoVoRA-Bench的综合测试中,LoVoRA在文本对齐度、视频质量与VLM(视觉语言模型)评估(包括Prompt Following与Edit Quality)等关键指标上全面领先于主流视频编辑方法。无论是在对象移除还是对象添加任务中,LoVoRA在绝大多数指标上都取得了最佳或接近最佳的结果,充分体现了其在语义一致性、对象级操作精度、背景稳定性与运动连续性方面的显著优势。与Ditto等侧重于外观增强但容易牺牲局部准确性的模型相比,LoVoRA在保持整体画面美观的同时,大幅提升了编辑的可控性。而与依赖参考帧输入的Senorita等方法相比,LoVoRA在无任何辅助输入条件下依然展现出高度竞争力,有力证明了其可学习定位机制的有效性。总体而言,各项定量指标均验证了LoVoRA在文本理解、定位精度与编辑质量上的强大综合性能。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

**定性分析:**

从可视化结果中可以清晰观察到LoVoRA在复杂场景下对对象的精准定位与自然编辑能力。对于移除任务,LoVoRA能够干净地擦除目标对象,几乎不留残影或造成结构性破坏,同时完整保留原有的纹理、光照与背景几何信息。对于添加任务,所插入的对象在颜色、光影、透视关系与运动轨迹上都能与环境实现无缝融合,即便在遮挡关系复杂、快速运动等困难场景中也能保持稳定。相比之下,多种基线方法常出现模糊边界、背景扭曲、时序跳变或编辑区域偏移等问题。LoVoRA在这些方面均表现出明显改善,展现出更高的视觉真实感与时空一致性。

LoVoRA:突破文本驱动视频编辑瓶颈,无需掩码实现精准对象操作

综上所述,LoVoRA框架通过创新的可学习对象定位机制与端到端的编辑架构,成功突破了文本驱动视频对象编辑的关键技术瓶颈,为实现更智能、更易用的视频编辑工具奠定了坚实基础。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/5146

(0)
上一篇 2025年12月11日 下午2:31
下一篇 2025年12月11日 下午3:00

相关推荐

  • 阿里千问3.5-Plus重磅开源:原生多模态、性能倒挂、价格屠夫,开源大模型迎来王炸级突破

    前阵子,各大模型厂商纷纷迭代产品,功能之多令人眼花缭乱。 就在大家以为临近春节,AI圈已无新牌可打时,阿里通义千问却毫无预兆地甩出了一对“王炸”——全新一代大模型 Qwen 3.5-Plus 正式重磅开源。 该模型在多模态理解、复杂推理、编程及Agent等核心维度上,不仅全面领先于同级开源模型,更在多项基准测试中足以媲美顶级闭源模型。 此次发布的核心亮点如下…

    2026年2月16日
    68900
  • Gemini 3 Flash:谷歌以极致效率重塑AI应用范式,开启规模化智能新时代

    在人工智能领域竞争日趋白热化的当下,谷歌于北京时间周四零点正式发布了Gemini 3 Flash模型,这不仅是其2024年大模型战略的收官之作,更标志着AI技术从单纯追求参数规模向效率与智能并重的关键转折。作为基于上个月发布的Gemini 3架构优化而来的高速、低成本模型,Gemini 3 Flash的推出具有多重战略意义:一方面直接对标OpenAI等竞争对…

    2025年12月19日
    41000
  • 从竞争到共创:腾讯广告算法大赛如何催化生成式推荐的技术革命与人才迭代

    在数字广告领域,推荐系统的每一次范式迁移都深刻影响着用户体验与商业效率。近期,一场由腾讯广告主办的算法大赛,不仅以360万元的高额奖金吸引了超过8000名参赛者,更在技术社区引发了罕见的集体学习热潮。这场比赛的核心赛题——全模态生成式推荐,正悄然推动着广告推荐从传统的判别式匹配向生成式理解的深刻转型。 传统推荐系统长期依赖判别式方法,其逻辑本质是基于历史行为…

    2025年12月3日
    57700
  • 突破智能体工作流瓶颈:ToolOrchestra框架如何通过强化学习实现动态资源调度

    在人工智能领域,智能体工作流的构建一直是提升任务执行效率的关键。然而,传统基于提示词工程的工作流设计存在明显的性能天花板,而静态路由策略则常导致计算资源的严重浪费。香港大学与NVIDIA团队的最新研究《ToolOrchestra: Learning to Orchestrate Tools with Multi-Objective Reinforcement…

    2025年11月28日
    32400
  • DeepSeek V4发布:百万token上下文开源,国产芯片适配

    DeepSeek V4“迟到”半年,但发布后的好评如潮还在如潮。 中外热搜上了一整圈,科技媒体的版面今天都让给了它,OpenAI也成了它的陪衬。 大家惊叹于DeepSeek在有限条件下作出重大突破的创造力,也佩服其在2026年,还能坚定选择开源路线的决心。 可以说,一时间信息多的有些超载,但多归多,主线就两条。 第一条,百万token上下文全面开源,KV c…

    2026年4月25日
    42400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注