阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

2025年,视频生成技术迎来突破性进展,行业范式正在重塑。9月,OpenAI发布的Sora 2通过“客串”功能攻克了长期困扰行业的角色一致性难题,使AI视频从随机生成转向可控创作。商业应用同步加速:B端AI短剧与漫剧批量上线,显著降低制作成本;C端社交平台涌现“粘土滤镜”等爆款特效,众多博主开始常态化使用AI制作剧情短片。

然而,顶尖技术对普通用户而言仍存在体验门槛,主要体现在内测资格稀缺或订阅费用高昂。近期,阿里千问APP接入万相2.5模型,提供了移动端免费生成有声视频的解决方案,其图生视频能力在LMArena评测中位列国内第一。

12月16日,阿里正式推出新一代万相2.6系列模型。如果说2.5版本开启了视频创作的大门,2.6版本则通过面向专业影视制作与图像创作的全面升级,将专业影棚能力赋予每位用户。

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

万相2.6系列涵盖文生视频、图生视频、参考生视频、图像生成及文生图共五款模型,构成全球功能覆盖最全面的视频生成模型家族之一。该模型是国内首个具备声画一致性角色定制能力的系统,用户可通过“角色参考”固定视频中人或物的IP形象,并参考输入视频的音色,实现从画面到声音的精准复刻,轻松处理单人独白或双人对手戏场景。

此次升级显著提升了画质、音效与指令遵循能力,单次视频生成时长达到国内最高的15秒(参考生视频为10秒)。新增的“分镜控制”功能可自动拆解并实现多镜头切换等专业任务,使AI能够构建完整叙事线,而非零碎片段。目前,万相2.6已上线阿里云百炼与万相官网,支持企业API调用,千问APP也将近期集成。

为验证模型性能,我们进行了实测。AI视频的核心挑战在于动态变化中保持保真与一致。万相2.6成为全球唯二、国内首个具备“参考生视频”能力的模型,支持将任意人或物设为主角,实现单人、多人或人物合拍视频,并在多镜头切换中保持主体、场景与氛围的统一。

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

技术层面,通义万相通过多模态联合建模对参考视频进行学习,提取时序信息中的主体情绪、姿态、多角度视觉特征,以及音色、语速等声学特征,在生成阶段作为控制条件,实现视觉到听觉的全维度一致性迁移。“分镜控制”功能基于高层语义理解,将用户提示词转换为多分镜脚本,生成连贯叙事视频,确保内容、节奏与氛围的一致性。

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

我们以奥特曼、哈萨比斯和黄仁勋的历史视频片段作为参考素材,测试模型提取主体形象特征、声音声线及神态习惯的能力,并通过提示词将其融入新剧情。

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

在一个电影质感的平行宇宙中,我们让这三位科技领袖围绕GPT-5.2与Gemini 3展开“现场互怼”。通过分次生成与拼接,得到以下成片:

英文版本完美复刻了原始声线与语调。为展示音频生成能力,另提供中文配音版本,虽跨语种难度增加,效果略逊于英文版,但仍实现形神兼备。

观察可见,三位主角的微表情、肢体语言及习惯动作还原度极高。山姆·奥特曼从首日的傲慢后仰到次日眼神闪烁、战术喝水的情绪转折流畅自然;德米斯·哈萨比斯从紧张防御到戏谑笑意的转变生动传神;黄仁勋仰天摊手的标志性动作更是极具感染力。

万相2.6提供两套核心提示词模板。针对“参考生视频”,支持人物、宠物或道具等任意类型主角(最多3个),复刻其外观、动态与音色。模板公式为“@主角 + 动作 + 台词 + 场景”,通过@符号引用参考素材,描述动作情绪、台词内容及环境即可。例如:在童话场景中,@A(参考视频为兔子)在草地玩耍,@B(参考视频为狗)在树下弹琴被苹果砸中,@A开心地说:“你要变成科学家了!”

在“多镜头叙事”方面,模型可将输入构建为具备叙事张力的专业级多镜头段落。推荐公式为“总体描述 + 镜头序号 + 时间戳 + 分镜内容”,先概括故事主题与基调,再通过时间戳划分结构,详细描述每个分镜的运镜与表演。例如:讲述重拾希望的短剧。第1镜头[0-3秒]男孩看着信纸叹气;第2镜头[3-5秒]特写眼角泪光;第3镜头[5-10秒]场景切换,女孩微笑着走近安慰他。

当AI具备长叙事能力与“演技”,视频创作进入新纪元。

— 图片补充 —

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机

阿里万相2.6发布:国内首个声画一致角色定制模型,将专业影棚搬入手机


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4570

(0)
上一篇 2025年12月17日 下午1:01
下一篇 2025年12月17日 下午4:45

相关推荐

  • ClaudeCode 自述构建历程:九成代码由AI生成,三天打造核心代理,开发者角色迎来新变革

    Claude Code 构建历程揭示,其约90%的代码由AI自主编写,团队仅用三天便打造出核心的“子代理”系统。这款工具不仅展现了AI驱动下惊人的开发效率,如每日快速迭代功能、工程师产能大幅提升,更重塑了终端交互体验。这预示着未来工程师的角色将更倾向于监督与指挥,而“AI优先”的工程团队模式或将成为新趋势。

    2025年10月13日
    39900
  • 特斯拉Robovan:20座无方向盘自动驾驶概念车,每公里成本仅3毛钱

    前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。 而去年在「we,robot」活动首次亮相的特斯拉 Robovan 视频,也被网友翻了出来。 马斯克反手就是一个转发,并配文称「这将彻底改变街道的面貌」。 评论区也炸了锅。网友纷纷表示很有未来感,「我们终于可以过上像杰森一家那样的生活了」。 甚至有网…

    2025年12月28日
    17000
  • 视觉感知与主动智能:AI耳机如何重塑人机交互范式

    Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件轮廓正逐渐清晰。供应链信息显示,这款产品并未配备屏幕,形态更接近可穿戴设备:体积与 iPod Shuffle 相仿,便于放入口袋或随身佩戴;内置麦克风与摄像头,可持续感知用户所处的真实环境,并主动提供建议。 在“无屏、主动式 AI”这条赛道上,中国公司已率先迈出步伐。 12 月底,光帆科技…

    2026年1月4日
    7100
  • Chandra OCR:重塑文档AI新标杆,以结构感知开启OCR 2.0时代

    OCR技术已历经长期发展,关于“文档智能”的愿景也层出不穷。然而,当面对真正复杂的文档材料时,大多数OCR系统的表现往往不尽如人意: 📄 模糊的PDF文件🧮 老旧数学作业纸的扫描件🗂️ 多栏版式的报纸扫描件✍️ 数十年前的手写表格 现有的一些OCR方案在页面干净规整时表现尚可,但一旦涉及文档结构、上下文理解或内容意图,就显得力不从心。 Chandra OCR…

    2025年12月24日
    11700
  • 谷歌官方发布Nano Banana Pro实用指南:10个技巧提升专业资产制作能力

    谷歌官方在 X 平台发布了一份实用指南,详细介绍了如何高效使用 Nano Banana Pro。本文将对指南中提到的 10 个核心技巧进行提炼与总结。 前置介绍 Nano-Banana Pro 相较于上一代模型实现了重大飞跃,其核心能力已从趣味图像生成转向实用的专业资产制作。 它在文本渲染、角色一致性、视觉合成、世界知识(搜索)以及高分辨率(最高4K)输出方…

    2025年12月1日
    6800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注