2024年12月初,可灵AI在短短五天内连续发布五项重要更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能等,这一系列动作不仅展示了其在生成式AI领域的技术突破,更直接推动了行业竞争进入新的高度。本文将从技术架构、产品创新、行业影响三个维度,深入分析可灵AI此次更新的核心价值与未来趋势。
首先,可灵O1的推出标志着多模态AI创作工具从“功能分散”向“引擎统一”的重大演进。传统AI视频生成模型往往针对单一任务设计,例如文生视频、图生视频、视频编辑等需在不同工具间切换,导致创作流程碎片化、效率低下。可灵O1基于此前提出的Multimodal Visual Language(MVL)理念,将所有生成和编辑任务融合于一个全能引擎中,构建了从灵感到成品的闭环创作流。

以视频O1模型为例,它整合了参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘、镜头延展等七类核心任务,用户无需跨平台操作即可一站式完成全流程创作。这种统一架构的核心优势在于提升了“可控性”——通过多模态长上下文(Multimodal Long Context)技术,模型能更精准理解用户输入的图像参考、文本提示及动作指令,有效解决了长期困扰创作者的主体一致性难题。例如,在生成人物连续动作时,模型可保持角色外观、场景风格的稳定性,避免传统方案中常见的画面跳变问题。
技术层面,可灵O1采用融合多模态理解的Transformer架构,实现了跨任务的知识共享与协同优化。根据可灵AI内部测评,在“图片参考”任务上,其效果对比Google Veo 3.1的胜负比达247%;在“指令变换”任务上,对比Runway Aleph的胜负比为230%。这些数据不仅体现了其技术领先性,更预示了多模态统一引擎可能成为行业下一代标准。
其次,可灵2.6模型推出的“音画同出”能力,重构了AI视频创作的工作流。传统AI视频生成需先生成无声画面,再通过后期配音添加音效,流程繁琐且易造成音画不同步。可灵2.6通过物理世界声音与动态画面的深度语义对齐,在单次生成中直接输出包含自然语音、动作音效及环境氛围音的完整视频。
这一突破得益于多模态语义理解技术的进步——模型能同时解析文本指令中的视觉元素与听觉需求,并实现跨模态的时序对齐。例如,输入“一个人在雨中奔跑”的提示,模型可同步生成雨滴声、脚步声及喘息声,且音效强度随画面动作动态变化。目前该模型支持中英文语音生成,视频长度最长10秒,并正在研发多语言体系与固定声线功能。

从应用场景看,“音画同出”极大降低了视频创作门槛,使自媒体、广告、教育等领域的用户能快速产出高质量视听内容。更深远的是,它推动了AI从“视觉生成”向“多感官生成”的演进,为未来虚拟现实、交互式叙事等应用奠定了基础。
最后,密集更新背后反映了可灵AI“技术驱动应用”的战略布局。除O1与2.6模型外,数字人2.0功能支持用户通过上传角色图与配音内容生成最长5分钟的自定义数字人,可灵O1主体库则提供了预制模板以加速创作。这些更新均围绕实际创作流程中的痛点设计,体现了从技术突破到产品落地的闭环思维。

行业影响方面,可灵AI已覆盖超过2万家企业用户,涵盖影视、广告、电商、游戏等领域,其技术迭代正推动生成式AI从“概念验证”走向“规模应用”。例如,数字人2.0可赋能虚拟主播、在线教育等场景;音画同出能力则适用于短视频营销、动态广告制作。

正如可灵AI事业部负责人盖坤所言,其目标是“让每个人都能用AI讲出好的故事”。年末这波更新通过降低技术门槛、提升创作效率,正加速这一愿景的实现。
展望未来,可灵AI的迭代揭示了生成式AI的两大趋势:一是多模态任务的统一化,通过单一引擎实现跨模态创作将成主流;二是实时交互能力的强化,音画同步仅是开端,未来可能拓展至触觉、嗅觉等多感官生成。随着技术持续突破,可灵AI有望在日益激烈的全球AI竞赛中,成为国产模型创新与落地的重要标杆。
关注“鲸栖”小程序,掌握最新AI资讯
本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/5176
