音视频生成
-
开源音视频生成新突破:MOVA模型实现电影级同步,打破Sora2闭源垄断
今天上午,上海创智学院 OpenMOSS 团队联合初创公司模思智能(MOSI),正式发布了端到端音视频生成模型 MOVA(MOSS-Video-and-Audio)。 作为中国首个高性能开源音视频模型,MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了极高的工业水准…
-
LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒
大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。 作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。 从技术架构看,LTX-2采用了非对称双流扩散变换器:一个…
