长视频外推
-
VideoCoF:无需掩码的时序推理视频编辑框架,以50k数据实现SOTA性能与长视频外推
本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模式识别。 现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境:专家模型精度高但依赖 Mask,通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…