大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。
作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。

从技术架构看,LTX-2采用了非对称双流扩散变换器:一个140亿参数的高容量视频流,搭配一个50亿参数的轻量级音频流。两者通过双向视听交叉注意力机制紧密连接,有效避免了重复计算。

高质量的音视频生成依赖于强大的文本理解能力。LTX-2集成了深度多语言文本编码器,并引入“思考标记”机制,以提升语义表达的稳定性与语音的发音准确性。

尽管同时生成音视频内容,LTX-2的速度却优于许多纯视频开源模型。数据显示,其每分钟处理步数可达49.18步,而作为对比的WAN 2.2 14B模型仅为2.69步。

这种联合训练的核心价值在于,它使模型能够真正学习声音与画面之间的内在关联,例如鼓掌时手部动作与拍击声的精确同步,或说话时口型与语音的匹配。
目前,模型支持生成时长约20秒的高分辨率、高帧率同步音视频。
项目地址:https://github.com/Lightricks/LTX-2
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17404
