阿里万相2.6发布：国内首个声画一致角色定制模型，将专业影棚搬入手机

2025年12月17日下午1:15 • AI产品库 • 阅读 293

2025年，视频生成技术迎来突破性进展，行业范式正在重塑。9月，OpenAI发布的Sora 2通过“客串”功能攻克了长期困扰行业的角色一致性难题，使AI视频从随机生成转向可控创作。商业应用同步加速：B端AI短剧与漫剧批量上线，显著降低制作成本；C端社交平台涌现“粘土滤镜”等爆款特效，众多博主开始常态化使用AI制作剧情短片。

然而，顶尖技术对普通用户而言仍存在体验门槛，主要体现在内测资格稀缺或订阅费用高昂。近期，阿里千问APP接入万相2.5模型，提供了移动端免费生成有声视频的解决方案，其图生视频能力在LMArena评测中位列国内第一。

12月16日，阿里正式推出新一代万相2.6系列模型。如果说2.5版本开启了视频创作的大门，2.6版本则通过面向专业影视制作与图像创作的全面升级，将专业影棚能力赋予每位用户。

万相2.6系列涵盖文生视频、图生视频、参考生视频、图像生成及文生图共五款模型，构成全球功能覆盖最全面的视频生成模型家族之一。该模型是国内首个具备声画一致性角色定制能力的系统，用户可通过“角色参考”固定视频中人或物的IP形象，并参考输入视频的音色，实现从画面到声音的精准复刻，轻松处理单人独白或双人对手戏场景。

此次升级显著提升了画质、音效与指令遵循能力，单次视频生成时长达到国内最高的15秒（参考生视频为10秒）。新增的“分镜控制”功能可自动拆解并实现多镜头切换等专业任务，使AI能够构建完整叙事线，而非零碎片段。目前，万相2.6已上线阿里云百炼与万相官网，支持企业API调用，千问APP也将近期集成。

为验证模型性能，我们进行了实测。AI视频的核心挑战在于动态变化中保持保真与一致。万相2.6成为全球唯二、国内首个具备“参考生视频”能力的模型，支持将任意人或物设为主角，实现单人、多人或人物合拍视频，并在多镜头切换中保持主体、场景与氛围的统一。

技术层面，通义万相通过多模态联合建模对参考视频进行学习，提取时序信息中的主体情绪、姿态、多角度视觉特征，以及音色、语速等声学特征，在生成阶段作为控制条件，实现视觉到听觉的全维度一致性迁移。“分镜控制”功能基于高层语义理解，将用户提示词转换为多分镜脚本，生成连贯叙事视频，确保内容、节奏与氛围的一致性。

我们以奥特曼、哈萨比斯和黄仁勋的历史视频片段作为参考素材，测试模型提取主体形象特征、声音声线及神态习惯的能力，并通过提示词将其融入新剧情。

在一个电影质感的平行宇宙中，我们让这三位科技领袖围绕GPT-5.2与Gemini 3展开“现场互怼”。通过分次生成与拼接，得到以下成片：

英文版本完美复刻了原始声线与语调。为展示音频生成能力，另提供中文配音版本，虽跨语种难度增加，效果略逊于英文版，但仍实现形神兼备。

观察可见，三位主角的微表情、肢体语言及习惯动作还原度极高。山姆·奥特曼从首日的傲慢后仰到次日眼神闪烁、战术喝水的情绪转折流畅自然；德米斯·哈萨比斯从紧张防御到戏谑笑意的转变生动传神；黄仁勋仰天摊手的标志性动作更是极具感染力。

万相2.6提供两套核心提示词模板。针对“参考生视频”，支持人物、宠物或道具等任意类型主角（最多3个），复刻其外观、动态与音色。模板公式为“@主角 + 动作 + 台词 + 场景”，通过@符号引用参考素材，描述动作情绪、台词内容及环境即可。例如：在童话场景中，@A（参考视频为兔子）在草地玩耍，@B（参考视频为狗）在树下弹琴被苹果砸中，@A开心地说：“你要变成科学家了！”

在“多镜头叙事”方面，模型可将输入构建为具备叙事张力的专业级多镜头段落。推荐公式为“总体描述 + 镜头序号 + 时间戳 + 分镜内容”，先概括故事主题与基调，再通过时间戳划分结构，详细描述每个分镜的运镜与表演。例如：讲述重拾希望的短剧。第1镜头[0-3秒]男孩看着信纸叹气；第2镜头[3-5秒]特写眼角泪光；第3镜头[5-10秒]场景切换，女孩微笑着走近安慰他。

当AI具备长叙事能力与“演技”，视频创作进入新纪元。

— 图片补充 —