AutoMV：首个开源全曲级MV生成Agent，实现音画同步与人物一致性

AutoMV团队投稿

量子位 | 公众号 QbitAI

现有的AI视频生成模型虽然在短片上效果惊人，但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。

近日，来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV。

这是一个无需训练的多智能体（Multi-Agent）系统，它像一个专业的摄制组，能根据音乐节拍、歌词和结构，自动生成长达数分钟、叙事连贯且音画同步的完整MV。

△ 《Lazy Song Demo》

△ 《Beliver Demo》

△ 《APT Demo》

为什么做“全曲”MV这么难？

对于独立音乐人来说，制作一支专业的MV往往意味着高昂的成本 （约1万美元） 和漫长的周期 （数十小时）。

虽然Sora、Runway等视频生成模型层出不穷，但直接用它们生成MV面临三大挑战：

1.时长限制：大多数模型只能生成几秒钟的片段，无法覆盖整首歌。

2.音画割裂：生成的画面往往只跟提示词有关，忽略了音乐的节拍 （Beats）、结构 （Intro/Chorus） 和歌词含义。

3.一致性差：在长达几分钟的视频中，主角的脸可能变来变去，场景也缺乏叙事连贯性。

为了解决这些问题，AutoMV 应运而生。它不是一个单一的模型，而是一套模拟人类影视制作流程的多智能体协作系统。

（图注：传统人工MV制作与AutoMV在时间、费用和质量上的对比。AutoMV将成本降至约15美元，且质量逼近专业水平）

AutoMV是如何工作的？

AutoMV的核心理念是让AI分饰多角，组成一个“全自动摄制组”。整个流程分为四个阶段：

（图注：AutoMV流程概览。包含音乐预处理、编剧与导演规划、视频生成与验证迭代四个主要步骤）

听懂音乐（Music-Aware Preprocessing）

系统首先利用一系列专业工具 （如SongFormer，Whisper，htdemucs） 对音乐进行“解剖”。它不仅能分离人声和伴奏，还能提取歌词、时间戳，并分析歌曲的结构 （主歌、副歌、过门） 和情绪 （如“轻快”、“忧伤”）。

编剧与导演（Screenwriter & Director）

这里引入了Gemini 作为编剧，Doubao 作为导演。

编剧根据歌词含义和音乐结构，写出分镜脚本，并建立一个共享角色库 （Character Bank），详细定义主角的形象 （发型、肤色、衣着），确保主角在整首歌中不“换脸”。
导演则负责生成具体的画面提示词 （Prompt） 和关键帧。

拍摄与生成（Video Generation）

根据剧本，系统会调用视频生成模型 _（如Doubao或 wan2.2-s2v）_进行生成。

对于普通叙事镜头，侧重电影感。
对于需要对口型的镜头 （如特写歌唱），系统会专门调用具备Lip-Sync能力的模型，确保口型与歌词严丝合缝。

严苛的“审片”环节（Verifier Agent）

这是AutoMV最独特的地方。系统内置了Verifier Agent （验证智能体）。它会像制片人一样检查生成的视频：

物理合理性：手是不是穿模了？动作是否自然？
一致性：这还是同一个主角吗？
契合度：画面跟剧本对得上吗？
如果验证不通过，系统会自动打回重做。

生成效果：连贯、丰富、对口型

通过上述流程，AutoMV能够生成具有连贯叙事逻辑的长视频。

（图注：AutoMV生成结果展示。从上到下依次为：一致的人物身份、多样的镜头语言、丰富的视觉特效、精准的音乐卡点以及歌词对齐）

与市面上的商业产品 （如OpenArt-story和Revid.ai） 相比，AutoMV在以下方面表现出了显著优势：

人物一致性：即使在不同的光照和角度下，主角依然能被识别为同一个人。
动作多样性：不仅有静态画面，还包含跳舞、唱歌等大幅度动作。
叙事性：视频内容紧扣歌词意境，不再是随机画面的堆砌。

（图注：与商业基线模型的对比。AutoMV在人物一致性和动作丰富度 （如唱歌、生活交互） 上明显优于OpenArt和Revid.ai）

评估：不仅人觉得好，AI也觉得好

为了科学评估长视频生成的质量，研究团队提出了首个M2V（Music-to-Video）Benchmark，包含30首风格各异的歌曲，并设立了12项细粒度评价标准 （涵盖技术性、后期、内容、艺术性四大维度）。

评估结果显示：

1. 客观指标：AutoMV在ImageBind Score （衡量音画一致性） 上得分最高。

2. 人类专家评估 （H,Expert）：在人物一致性、故事性及情感表达上，AutoMV显著优于商业竞品，大幅缩小了与人类专业MV的差距。

3. LLM裁判 （G）：研究还发现，使用Gemini-2.5-Pro等全模态大模型作为裁判，结果表明，模型能力越强，其评分与人类专家越一致，证明了用AI评估AI视频的可行性。

未来可期

AutoMV提供了一个开源、免训练 （Training-Free） 的框架，通过多智能体协作，解决了长形式音乐视频生成中的“一致性”和“音画对齐”两大难题。

尽管目前生成一首完整MV可能需要约30分钟，且在极复杂的舞蹈卡点上仍有提升空间，但它为独立音乐人和创作者提供了一种全新的低成本创作工具。未来，随着底层视频生成模型的进化，AutoMV 的表现将更加值得期待。

最后，年关将至，给大家带来AutoMV生成的一条应景的贺岁短片~

项目主页：https://m-a-p.ai/AutoMV/
代码仓库：https://github.com/multimodal-art-projection/AutoMV
论文链接：arXiv:2512.12196

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/16264

AutoMV：首个开源全曲级MV生成Agent，实现音画同步与人物一致性

AutoMV团队 投稿

△ 《Lazy Song Demo》

△ 《Beliver Demo》

△ 《APT Demo》

为什么做“全曲”MV这么难？

AutoMV是如何工作的？

听懂音乐 （Music-Aware Preprocessing）

编剧与导演 （Screenwriter & Director）

拍摄与生成 （Video Generation）

严苛的“审片”环节 （Verifier Agent）

生成效果：连贯、丰富、对口型

评估：不仅人觉得好，AI也觉得好

未来可期

相关推荐

DeepTutor：开源AI学习助手，用交互式可视化与双回路架构重塑智能辅导

3个GitHub开源神器：网页打包APP、私人时光机、极简番茄钟

3款AI画图神器，一句话生成专业技术图，GitHub星数均超3.6K

TuriX-CUA：让AI接管你的电脑，跨平台智能体实现自动化操作

中国团队突破空间智能核心技术：InSpatio-WorldFM开源实时3D世界模型，开启AI物理交互新纪元

AutoMV团队投稿

听懂音乐（Music-Aware Preprocessing）

编剧与导演（Screenwriter & Director）

拍摄与生成（Video Generation）

严苛的“审片”环节（Verifier Agent）