可灵AI年末密集更新：多模态统一引擎与音画同出技术如何重塑生成式AI竞争格局

2025年12月10日下午12:07 • AI产业动态 • 阅读 89

2024年12月初，可灵AI在短短五天内连续发布五项重要更新，包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能等，这一系列动作不仅展示了其在生成式AI领域的技术突破，更直接推动了行业竞争进入新的高度。本文将从技术架构、产品创新、行业影响三个维度，深入分析可灵AI此次更新的核心价值与未来趋势。

首先，可灵O1的推出标志着多模态AI创作工具从“功能分散”向“引擎统一”的重大演进。传统AI视频生成模型往往针对单一任务设计，例如文生视频、图生视频、视频编辑等需在不同工具间切换，导致创作流程碎片化、效率低下。可灵O1基于此前提出的Multimodal Visual Language（MVL）理念，将所有生成和编辑任务融合于一个全能引擎中，构建了从灵感到成品的闭环创作流。

以视频O1模型为例，它整合了参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘、镜头延展等七类核心任务，用户无需跨平台操作即可一站式完成全流程创作。这种统一架构的核心优势在于提升了“可控性”——通过多模态长上下文（Multimodal Long Context）技术，模型能更精准理解用户输入的图像参考、文本提示及动作指令，有效解决了长期困扰创作者的主体一致性难题。例如，在生成人物连续动作时，模型可保持角色外观、场景风格的稳定性，避免传统方案中常见的画面跳变问题。

技术层面，可灵O1采用融合多模态理解的Transformer架构，实现了跨任务的知识共享与协同优化。根据可灵AI内部测评，在“图片参考”任务上，其效果对比Google Veo 3.1的胜负比达247%；在“指令变换”任务上，对比Runway Aleph的胜负比为230%。这些数据不仅体现了其技术领先性，更预示了多模态统一引擎可能成为行业下一代标准。

其次，可灵2.6模型推出的“音画同出”能力，重构了AI视频创作的工作流。传统AI视频生成需先生成无声画面，再通过后期配音添加音效，流程繁琐且易造成音画不同步。可灵2.6通过物理世界声音与动态画面的深度语义对齐，在单次生成中直接输出包含自然语音、动作音效及环境氛围音的完整视频。

这一突破得益于多模态语义理解技术的进步——模型能同时解析文本指令中的视觉元素与听觉需求，并实现跨模态的时序对齐。例如，输入“一个人在雨中奔跑”的提示，模型可同步生成雨滴声、脚步声及喘息声，且音效强度随画面动作动态变化。目前该模型支持中英文语音生成，视频长度最长10秒，并正在研发多语言体系与固定声线功能。