视频编辑

大模型工程

VideoCoF：无需掩码的时序推理视频编辑框架，以50k数据实现SOTA性能与长视频外推

本文第一作者是 UTS 博士生杨向鹏，主要研究方向是视频生成和世界模型；第二作者是谢集，浙江大学的四年级本科生，主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授，主要研究方向为计算机视觉和模式识别。现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境：专家模型精度高但依赖 Mask，通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…

2025年12月23日
199000
AI产业动态

LoVoRA：突破文本驱动视频编辑瓶颈，无需掩码实现精准对象操作

近年来，基于扩散模型的视频生成技术取得了显著进展，大幅提升了视频编辑的真实感与可控性。然而，在文字驱动的视频对象移除与添加领域，依然存在诸多技术瓶颈亟待突破。这不仅要求模型能够精准定位目标对象，还需同时维持背景连续性、时序一致性以及语义匹配，构成了一个多维度的复杂挑战。现有主流方法在推理阶段往往依赖用户提供的掩码或参考帧来界定编辑区域，这种强依赖不仅抬高了使…

2025年12月11日
318000