AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性

AutoMV团队 投稿

量子位 | 公众号 QbitAI

现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

近日,来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV

这是一个无需训练的多智能体(Multi-Agent)系统,它像一个专业的摄制组,能根据音乐节拍、歌词和结构,自动生成长达数分钟、叙事连贯且音画同步的完整MV。

△ 《Lazy Song Demo》

△ 《Beliver Demo》

△ 《APT Demo》

为什么做“全曲”MV这么难?

对于独立音乐人来说,制作一支专业的MV往往意味着高昂的成本 (约1万美元) 和漫长的周期 (数十小时)

虽然Sora、Runway等视频生成模型层出不穷,但直接用它们生成MV面临三大挑战:

1.时长限制:大多数模型只能生成几秒钟的片段,无法覆盖整首歌。

2.音画割裂:生成的画面往往只跟提示词有关,忽略了音乐的节拍 (Beats)、结构 (Intro/Chorus) 和歌词含义。

3.一致性差:在长达几分钟的视频中,主角的脸可能变来变去,场景也缺乏叙事连贯性。

为了解决这些问题,AutoMV 应运而生。它不是一个单一的模型,而是一套模拟人类影视制作流程的多智能体协作系统

AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性
(图注:传统人工MV制作与AutoMV在时间、费用和质量上的对比。AutoMV将成本降至约15美元,且质量逼近专业水平)

AutoMV是如何工作的?

AutoMV的核心理念是让AI分饰多角,组成一个“全自动摄制组”。整个流程分为四个阶段:

AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性
(图注:AutoMV流程概览。包含音乐预处理、编剧与导演规划、视频生成与验证迭代四个主要步骤)

听懂音乐 (Music-Aware Preprocessing)

系统首先利用一系列专业工具 (如SongFormer,Whisper,htdemucs) 对音乐进行“解剖”。它不仅能分离人声和伴奏,还能提取歌词、时间戳,并分析歌曲的结构 (主歌、副歌、过门) 和情绪 (如“轻快”、“忧伤”)

编剧与导演 (Screenwriter & Director)

这里引入了Gemini 作为编剧,Doubao 作为导演。

  • 编剧 根据歌词含义和音乐结构,写出分镜脚本,并建立一个共享角色库 (Character Bank),详细定义主角的形象 (发型、肤色、衣着),确保主角在整首歌中不“换脸”。
  • 导演 则负责生成具体的画面提示词 (Prompt) 和关键帧。

拍摄与生成 (Video Generation)

根据剧本,系统会调用视频生成模型 _(如Doubao或 wan2.2-s2v)_进行生成。

  • 对于普通叙事镜头,侧重电影感。
  • 对于需要对口型的镜头 (如特写歌唱),系统会专门调用具备Lip-Sync能力的模型,确保口型与歌词严丝合缝。

严苛的“审片”环节 (Verifier Agent)

这是AutoMV最独特的地方。系统内置了Verifier Agent (验证智能体)。它会像制片人一样检查生成的视频:

  • 物理合理性:手是不是穿模了?动作是否自然?
  • 一致性:这还是同一个主角吗?
  • 契合度:画面跟剧本对得上吗?
  • 如果验证不通过,系统会自动打回重做。

生成效果:连贯、丰富、对口型

通过上述流程,AutoMV能够生成具有连贯叙事逻辑的长视频。

AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性
(图注:AutoMV生成结果展示。从上到下依次为:一致的人物身份、多样的镜头语言、丰富的视觉特效、精准的音乐卡点以及歌词对齐)

与市面上的商业产品 (如OpenArt-story和Revid.ai) 相比,AutoMV在以下方面表现出了显著优势:

  • 人物一致性:即使在不同的光照和角度下,主角依然能被识别为同一个人。
  • 动作多样性:不仅有静态画面,还包含跳舞、唱歌等大幅度动作。
  • 叙事性:视频内容紧扣歌词意境,不再是随机画面的堆砌。

AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性
(图注:与商业基线模型的对比。AutoMV在人物一致性和动作丰富度 (如唱歌、生活交互) 上明显优于OpenArt和Revid.ai)

评估:不仅人觉得好,AI也觉得好

为了科学评估长视频生成的质量,研究团队提出了首个M2V(Music-to-Video)Benchmark,包含30首风格各异的歌曲,并设立了12项细粒度评价标准 (涵盖技术性、后期、内容、艺术性四大维度)

AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性
AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性

评估结果显示:

1. 客观指标:AutoMV在ImageBind Score (衡量音画一致性) 上得分最高。

2. 人类专家评估 (H,Expert):在人物一致性、故事性及情感表达上,AutoMV显著优于商业竞品,大幅缩小了与人类专业MV的差距。

3. LLM裁判 (G):研究还发现,使用Gemini-2.5-Pro等全模态大模型作为裁判,结果表明,模型能力越强,其评分与人类专家越一致,证明了用AI评估AI视频的可行性。

未来可期

AutoMV提供了一个开源、免训练 (Training-Free) 的框架,通过多智能体协作,解决了长形式音乐视频生成中的“一致性”和“音画对齐”两大难题。

尽管目前生成一首完整MV可能需要约30分钟,且在极复杂的舞蹈卡点上仍有提升空间,但它为独立音乐人和创作者提供了一种全新的低成本创作工具。未来,随着底层视频生成模型的进化,AutoMV 的表现将更加值得期待。

最后,年关将至,给大家带来AutoMV生成的一条应景的贺岁短片~

项目主页:https://m-a-p.ai/AutoMV/
代码仓库:https://github.com/multimodal-art-projection/AutoMV
论文链接:arXiv:2512.12196


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/16264

(0)
上一篇 2025年12月29日 下午12:36
下一篇 2025年12月29日 下午1:13

相关推荐

  • DeepGEMM质变:从GEMM库到统一LLM计算原语平台,Mega MoE与FP4 Indexer重磅发布

    DeepGEMM质变:从GEMM库到统一LLM计算原语平台 自2025年初首次亮相以来,DeepGEMM一直是DeepSeek团队面向NVIDIA GPU(SM90/SM100)打造的高性能Tensor Core内核库。 然而,本次PR #304标志着DeepGEMM完成了一次根本性的蜕变——从一个”干净高效的GEMM库”升级为&#8…

    开源项目 2026年4月26日
    31800
  • GitHub三大AI信息聚合利器:告别信息碎片化,智能聚合全网优质内容

    GitHub三大AI信息聚合利器:告别信息碎片化,智能聚合全网优质内容 在信息爆炸的时代,优质内容往往散落在X、播客、博客、视频等多个平台。手动追踪不仅耗时,还容易遗漏。借助GitHub上基于AI的开源工具,我们可以实现信息的智能聚合与高效筛选,将碎片化信息整合为结构化、高价值的内容流。 01 AI 内容聚合平台 BestBlogs 是一个能够聚合X、小宇宙…

    2025年11月10日
    46900
  • WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星,但实际效果与宣传有差距

    WiFi信号也能“看见”人体姿态?开源项目wifi-densepose一天斩获2000+星 打开GitHub Trending榜单,一个名为 wifi-densepose 的开源项目登上热榜,一天之内便斩获了超过2000个Star。该项目宣称无需摄像头,仅通过分析WiFi信号即可“看见”并还原房间内人体的动作与姿态。 项目简介 WiFi DensePose …

    2026年3月3日
    1.3K00
  • ASI-Evolve:全球首个AI自主研发闭环框架,开启AI自我进化新时代

    一、背景:AI 研发的“人类瓶颈”,已成为行业发展的核心约束 “人工智能能否加速其自身的发展?” 这个横亘在人工智能领域最核心的终极问题,在今天迎来了里程碑式的进展。当我们仍在惊叹于大模型在代码、数学与推理领域的突破时,一个能够自主完成 AI 全流程研发的闭环框架——ASI-Evolve,已经开启了 AI 自我进化的新纪元。 当前 AI 领域的进步,始终围绕…

    2026年4月7日
    42100
  • DeepXiv:让科技文献从“人类可读”升级为“智能体可用”的AI科研基础设施

    引言 随着大模型智能体的快速发展,由AI驱动的自动化科研正从概念快步走进现实。从自动发现科学问题、生成研究计划,到设计理论方法、开展实验探究,科研智能体正在全流程、根本性地重塑科学研究的范式。 然而,要让智能体真正服务于科学研究,一个基础性的技术瓶颈亟待解决:智能体如何高效地使用科技文献? 当前,科技文献的利用方式仍然是为人类用户设计的。在传统模式下,智能体…

    2026年4月8日
    50400