音视频生成

开源音视频生成新突破：MOVA模型实现电影级同步，打破Sora2闭源垄断

今天上午，上海创智学院 OpenMOSS 团队联合初创公司模思智能（MOSI），正式发布了端到端音视频生成模型 MOVA（MOSS-Video-and-Audio）。作为中国首个高性能开源音视频模型，MOVA 实现了真正意义上的「音画同出」。它不仅能生成长达 8 秒、最高 720p 分辨率的视听片段，更在多语言口型同步、环境音效契合度上展现了极高的工业水准…

2026年1月29日

738000

开源项目

LTX-2开源：首个联合生成视频与音频的多模态基础模型，突破视听同步技术壁垒

大多数视频模型是哑巴，大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。作为由Lightricks团队开发的首个开源多模态基础模型，LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接，而是通过学习声音与视觉的联合分布，一次性生成包含语音、环境音、动作和时序的同步内容。从技术架构看，LTX-2采用了非对称双流扩散变换器：一个…

2026年1月8日

367000