LTX-2开源：首个联合生成视频与音频的多模态基础模型，突破视听同步技术壁垒

2026年1月8日上午8:18 • 开源项目 • 阅读 197

大多数视频模型是哑巴，大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。

作为由Lightricks团队开发的首个开源多模态基础模型，LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接，而是通过学习声音与视觉的联合分布，一次性生成包含语音、环境音、动作和时序的同步内容。

从技术架构看，LTX-2采用了非对称双流扩散变换器：一个140亿参数的高容量视频流，搭配一个50亿参数的轻量级音频流。两者通过双向视听交叉注意力机制紧密连接，有效避免了重复计算。

高质量的音视频生成依赖于强大的文本理解能力。LTX-2集成了深度多语言文本编码器，并引入“思考标记”机制，以提升语义表达的稳定性与语音的发音准确性。

尽管同时生成音视频内容，LTX-2的速度却优于许多纯视频开源模型。数据显示，其每分钟处理步数可达49.18步，而作为对比的WAN 2.2 14B模型仅为2.69步。

这种联合训练的核心价值在于，它使模型能够真正学习声音与画面之间的内在关联，例如鼓掌时手部动作与拍击声的精确同步，或说话时口型与语音的匹配。

目前，模型支持生成时长约20秒的高分辨率、高帧率同步音视频。

项目地址：https://github.com/Lightricks/LTX-2

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17404

多模态模型开源项目扩散变换器联合训练音视频生成

赞 (0)

0 0

揭秘16层架构：如何构建成本优化、全链路可观测的生产级知识图谱系统Agentic GraphOS

上一篇 2026年1月8日上午8:13

阿里VLCache革新视觉语言模型推理：仅计算2%视觉token实现16倍加速，精度近无损

下一篇 2026年1月8日上午8:59

AI产品库

4款惊艳AI开源项目盘点：从图表重建到桌面助手，解锁智能新体验

01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图，转换为可完全编辑的格式，例如 DrawIO 的 XML 或 PPTX。该项目并非简单的OCR工具，而是基于计算机视觉模型，对图表中的逻辑关系、形状组件和文本进行深度重建，实现高保真还原。生成的图形元素可以独立选中和…

2026年2月21日
269000
开源项目

告别技能静默漂移：Cognee如何让AI技能自我进化，实现智能体持续优化

你有没有过这样的经历：某个智能体（Agent）的技能明明几个月前运行良好，突然就开始“抽风”？你翻遍代码也找不到问题，最终才发现是上游API悄然变更，或是底层模型的行为发生了漂移。这种失败模式被称为 “静默漂移”（Silent Drift）。它不会引发报错或崩溃，只是输出质量在不知不觉中缓慢下降，等你察觉时往往为时已晚。问题根源当前智能体技能（Ski…

3天前
106000
开源项目

万亿参数开源巨兽！Yuan3.0 Ultra发布，专为企业多模态AI而生

源Yuan3.0 Ultra多模态基础大模型正式开源 YuanLab.ai团队正式开源发布了源Yuan3.0 Ultra 多模态基础大模型。作为源3.0系列面向万亿参数规模打造的旗舰模型，它是当前业界仅有的三个万亿级开源多模态大模型之一。该模型将MoE大模型的训练效率优化系统性引入模型结构设计，并围绕企业应用及智能体工具调用等方面进行了深度优化，在多…

2026年3月5日
378000
开源项目

vphone-cli：在Mac上运行真实iOS系统，开发者调试神器

vphone-cli：在 Mac 上运行真实 iOS 系统，开发者调试神器在 Mac 上运行真正的 iOS 系统 vphone-cli 是一个新近开源但迅速流行的项目。它允许开发者在 Mac 上直接引导并启动一个虚拟的 iPhone 设备。需要强调的是，它并非模拟器，而是运行着真实的 iOS 系统。该项目基于苹果原生的 Virtualization 框架实…

3天前
120000
开源项目

Ruby 4.0重磅发布：ZJIT编译器革新与原生隔离环境，开启性能与安全新纪元

Ruby 4.0重磅发布：ZJIT编译器革新与原生隔离环境，开启性能与安全新纪元在Ruby语言迎来30周年之际，全新的4.0版本为开发者带来了重磅更新。本次更新引入了隔离命名空间、全新的JIT编译器，并对Ractor API进行了重新设计，标志着这款开源语言在性能与安全方面迈入了新纪元。 Ruby是一种开源的面向对象脚本语言，由日本人松本行弘于20世纪90…

2025年12月28日
178000