LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。

作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

从技术架构看,LTX-2采用了非对称双流扩散变换器:一个140亿参数的高容量视频流,搭配一个50亿参数的轻量级音频流。两者通过双向视听交叉注意力机制紧密连接,有效避免了重复计算。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

高质量的音视频生成依赖于强大的文本理解能力。LTX-2集成了深度多语言文本编码器,并引入“思考标记”机制,以提升语义表达的稳定性与语音的发音准确性。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

尽管同时生成音视频内容,LTX-2的速度却优于许多纯视频开源模型。数据显示,其每分钟处理步数可达49.18步,而作为对比的WAN 2.2 14B模型仅为2.69步。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

这种联合训练的核心价值在于,它使模型能够真正学习声音与画面之间的内在关联,例如鼓掌时手部动作与拍击声的精确同步,或说话时口型与语音的匹配。

目前,模型支持生成时长约20秒的高分辨率、高帧率同步音视频。

项目地址:https://github.com/Lightricks/LTX-2


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17404

(0)
上一篇 2026年1月8日 上午8:13
下一篇 2026年1月8日 上午8:59

相关推荐

  • 4款惊艳AI开源项目盘点:从图表重建到桌面助手,解锁智能新体验

    01 图片、PDF转为可编辑 Edit Banana 是一个由北京理工大学开发的开源项目。它能够将不可编辑的图片或PDF格式的统计图表、流程图,转换为可完全编辑的格式,例如 DrawIO 的 XML 或 PPTX。 该项目并非简单的OCR工具,而是基于计算机视觉模型,对图表中的逻辑关系、形状组件和文本进行深度重建,实现高保真还原。生成的图形元素可以独立选中和…

    2026年2月21日
    26900
  • 告别技能静默漂移:Cognee如何让AI技能自我进化,实现智能体持续优化

    你有没有过这样的经历:某个智能体(Agent)的技能明明几个月前运行良好,突然就开始“抽风”?你翻遍代码也找不到问题,最终才发现是上游API悄然变更,或是底层模型的行为发生了漂移。 这种失败模式被称为 “静默漂移”(Silent Drift) 。它不会引发报错或崩溃,只是输出质量在不知不觉中缓慢下降,等你察觉时往往为时已晚。 问题根源 当前智能体技能(Ski…

    3天前
    10600
  • 万亿参数开源巨兽!Yuan3.0 Ultra发布,专为企业多模态AI而生

    源Yuan3.0 Ultra多模态基础大模型正式开源 YuanLab.ai团队正式开源发布了 源Yuan3.0 Ultra 多模态基础大模型。 作为源3.0系列面向 万亿参数 规模打造的旗舰模型,它是当前业界仅有的三个万亿级开源多模态大模型之一。该模型将MoE大模型的训练效率优化系统性引入模型结构设计,并围绕企业应用及智能体工具调用等方面进行了深度优化,在多…

    2026年3月5日
    37800
  • vphone-cli:在Mac上运行真实iOS系统,开发者调试神器

    vphone-cli:在 Mac 上运行真实 iOS 系统,开发者调试神器 在 Mac 上运行真正的 iOS 系统 vphone-cli 是一个新近开源但迅速流行的项目。它允许开发者在 Mac 上直接引导并启动一个虚拟的 iPhone 设备。需要强调的是,它并非模拟器,而是运行着真实的 iOS 系统。该项目基于苹果原生的 Virtualization 框架实…

    3天前
    12000
  • Ruby 4.0重磅发布:ZJIT编译器革新与原生隔离环境,开启性能与安全新纪元

    Ruby 4.0重磅发布:ZJIT编译器革新与原生隔离环境,开启性能与安全新纪元 在Ruby语言迎来30周年之际,全新的4.0版本为开发者带来了重磅更新。本次更新引入了隔离命名空间、全新的JIT编译器,并对Ractor API进行了重新设计,标志着这款开源语言在性能与安全方面迈入了新纪元。 Ruby是一种开源的面向对象脚本语言,由日本人松本行弘于20世纪90…

    2025年12月28日
    17800