LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

大多数视频模型是哑巴,大多数音频模型是瞎子。LTX-2的开源旨在解决这一根本问题。

作为由Lightricks团队开发的首个开源多模态基础模型,LTX-2能够联合生成音频和视频。它并非简单地将独立的视频与音频模型拼接,而是通过学习声音与视觉的联合分布,一次性生成包含语音、环境音、动作和时序的同步内容。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

从技术架构看,LTX-2采用了非对称双流扩散变换器:一个140亿参数的高容量视频流,搭配一个50亿参数的轻量级音频流。两者通过双向视听交叉注意力机制紧密连接,有效避免了重复计算。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

高质量的音视频生成依赖于强大的文本理解能力。LTX-2集成了深度多语言文本编码器,并引入“思考标记”机制,以提升语义表达的稳定性与语音的发音准确性。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

尽管同时生成音视频内容,LTX-2的速度却优于许多纯视频开源模型。数据显示,其每分钟处理步数可达49.18步,而作为对比的WAN 2.2 14B模型仅为2.69步。

LTX-2开源:首个联合生成视频与音频的多模态基础模型,突破视听同步技术壁垒

这种联合训练的核心价值在于,它使模型能够真正学习声音与画面之间的内在关联,例如鼓掌时手部动作与拍击声的精确同步,或说话时口型与语音的匹配。

目前,模型支持生成时长约20秒的高分辨率、高帧率同步音视频。

项目地址:https://github.com/Lightricks/LTX-2


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17404

(0)
上一篇 2026年1月8日 上午8:13
下一篇 2026年1月8日 上午8:59

相关推荐

  • 5个GitHub开源项目助你副业变现百万:从一人企业到独立开发实战指南

    一人企业方法论 开源项目《一人企业方法论》目前已更新至第二版,专为希望独立创业或开展副业的个人提供实用指导。无论你是从事自媒体、电商还是数字商品,即使没有技术背景,也能从中获得启发。 该项目的核心思想倡导一种以个人为核心、精益化且可持续的商业模式。它不追求规模化增长和资本驱动,而是专注于利用现代技术工具与系统化方法论,帮助个人独立构建并运营一个健康、盈利的微…

    2025年11月12日
    61701
  • AI绘图革命:Next AI Draw.io一周斩获4500星,自然语言秒变专业图表

    Next AI Draw.io:一周斩获4500星,用自然语言秒变专业图表 在GitHub上,一个名为 Next AI Draw.io 的开源项目迅速走红,仅一周就获得了超过4500个Star,并登上了开源热榜。 如果你在工作中经常需要绘制流程图、架构图或UML图,又觉得传统的拖拽连线方式效率低下,那么这个项目或许能成为你的效率利器。 开源项目简介 Next…

    2025年12月18日
    65300
  • 赛博永生:开源项目colleague-skill五天斩获7K星,将离职同事“炼化”成AI继续打工

    赛博永生:开源项目 colleague-skill 五天斩获 7K 星,将离职同事“炼化”成 AI 继续打工 最近,GitHub 上一个名为 colleague-skill 的开源项目引发了广泛关注。该项目在短短五天内便斩获了超过 7000 颗星,且增长势头迅猛。其项目简介写道:“将冰冷的离别化为温暖的 Skill,欢迎加入赛博永生。” 初看之下,这个项目概…

    2026年4月5日
    89000
  • SWE-Vision:让大模型用代码“看见”世界,五大视觉基准刷新SOTA

    多模态大模型在代码生成与理解方面取得了显著进展,但其在基础视觉任务上的表现却时常不尽如人意。针对这一短板,UniPat AI 提出了一个极简的视觉智能体框架——SWE-Vision。该框架的核心思想是让模型能够编写并执行 Python 代码,以此处理和验证自身的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均取得了当前最优的性能。 01|模型看得…

    2026年3月16日
    39000
  • 谷歌开源Google Workspace CLI:专为AI Agent设计的命令行工具,打通Gmail、Drive、Calendar等全家桶API

    谷歌开源 Google Workspace CLI:专为 AI Agent 设计的命令行工具 随着类似 OpenClaw 的 AI 智能体加速普及,一个显著的趋势正在发生:用户主动打开特定软件的频率在降低,转而更多地通过自然语言向 AI 下达指令。 过去,处理邮件需要打开邮箱客户端,手动点击、逐封回复。未来,你或许只需在聊天窗口中对 AI 说一句“处理一下今…

    2026年3月11日
    57700