LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。

作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

从技术架构看,LTX-2采用了非对称双流扩散变换器:一个140亿参数的高容量视频流,搭配一个50亿参数的轻量级音频流。两者通过双向视听交叉注意力机制紧密连接,有效避免了重复计算。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

高质量的音视频生成依赖于强大的文本理解能力。LTX-2集成了深度多语言文本编码器,并引入“思考标记”机制,以提升语义表达的稳定性与语音的发音准确性。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

尽管同时生成音视频内容,LTX-2的速度却优于许多纯视频开源模型。数据显示,其每分钟处理步数可达49.18步,而作为对比的WAN 2.2 14B模型仅为2.69步。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

这种联合训练的核心价值在于,它使模型能够真正学习声音与画面之间的内在关联,例如鼓掌时手部动作与拍击声的精确同步,或说话时口型与语音的匹配。

目前,模型支持生成时长约20秒的高分辨率、高帧率同步音视频。

项目地址:https://github.com/Lightricks/LTX-2


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17404

(0)
上一篇 2026年1月8日 上午8:13
下一篇 2026年1月8日 上午8:59

相关推荐

  • 3个GitHub开源神器:网页打包APP、私人时光机、极简番茄钟

    快速把网页打包成 APP 这个名为 PakePlus 的 GitHub 开源项目已获得 6.5K Star。它是一个能将常用网站(如 YouTube、小红书)或个人网页项目,快速打包成独立、小巧的桌面或移动端应用的工具。 它支持在 macOS、Windows、Linux 以及 Android 和 iOS 系统上安装使用。 PakePlus 体积小巧(小于 5…

    2025年11月13日
    6600
  • 探索Vibe Coding:4个GitHub开源项目带你进入AI编程新范式

    Andrej Karpathy 是 OpenAI 创始成员、前特斯拉 AI 总监。他年初在 X 上发布了一条推文,分享了自己使用 Cursor 与 Claude 进行编程的体验,并首次提出了 Vibe Coding 这一概念。 Vibe Coding 是一种基于 AI 的全新编程范式。开发者通过与 AI 进行对话式协作,共同构建应用程序或网站,其核心在于专注…

    2025年12月12日
    7300
  • GitHub三大AI信息聚合利器:告别信息碎片化,智能聚合全网优质内容

    GitHub三大AI信息聚合利器:告别信息碎片化,智能聚合全网优质内容 在信息爆炸的时代,优质内容往往散落在X、播客、博客、视频等多个平台。手动追踪不仅耗时,还容易遗漏。借助GitHub上基于AI的开源工具,我们可以实现信息的智能聚合与高效筛选,将碎片化信息整合为结构化、高价值的内容流。 01 AI 内容聚合平台 BestBlogs 是一个能够聚合X、小宇宙…

    2025年11月10日
    7300
  • DeepTutor:开源AI学习助手,用交互式可视化与双回路架构重塑智能辅导

    不知从什么时候开始,AI 已经成为了许多学生手中的“做题外挂”。 遇到不会的题目,直接丢给 ChatGPT 或 DeepSeek,答案瞬间可得。 但这真的有助于学习吗?许多家长已经开始担忧:孩子依赖 AI 后,不再主动思考,只是机械地抄录答案。 我们需要的不是一个只会输出答案的机器,而是一个懂得引导、能够拆解知识的“AI 学习助手”。 近日,GitHub 上…

    2026年1月7日
    16200
  • nncase:基于e-graph的端到端LLM编译器,突破异构存储架构性能瓶颈

    关键词:LLM 编译、 e-graph、异构存储架构、统一分布式编译、自动优化、端到端编译框架 本文转载自知乎账号:郑启航[1] 原文链接:https://zhuanlan.zhihu.com/p/1989088940733510928 nncase: An End-to-End Compiler for Efficient LLM Deployment o…

    2025年12月30日
    6700