音视频生成
-
LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒
大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。 作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。 从技术架构看,LTX-2采用了非对称双流扩散变换器:一个…
大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。 作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。 从技术架构看,LTX-2采用了非对称双流扩散变换器:一个…