长视频外推

大模型工程

VideoCoF：无需掩码的时序推理视频编辑框架，以50k数据实现SOTA性能与长视频外推

本文第一作者是 UTS 博士生杨向鹏，主要研究方向是视频生成和世界模型；第二作者是谢集，浙江大学的四年级本科生，主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授，主要研究方向为计算机视觉和模式识别。现有的视频编辑模型往往面临「鱼与熊掌不可兼得」的困境：专家模型精度高但依赖 Mask，通用模型虽免 Mask 但定位不准。来自悉尼科技大学和浙江大学的…

2025年12月23日
362000