美团视频生成模型来了!一出手就是开源SOTA

美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

美团最新发布了一款名为LongCat-Video的开源视频生成模型,该模型以其13.6B的参数量,在文生视频图生视频和视频延长等多个任务上展现出卓越性能。

美团视频生成模型来了!一出手就是开源SOTA

这一模型能够生成长达数分钟的高质量视频内容,在多项评测中表现亮眼,其文生视频能力在开源领域处于领先地位,部分核心指标甚至可与业界顶尖的闭源模型相媲美。

美团视频生成模型来了!一出手就是开源SOTA

从技术层面来看,LongCat-Video采用基于Diffusion Transformer的创新架构,通过统一的任务定义和精心设计的注意力机制,实现了多任务的协同训练与推理。

美团视频生成模型来了!一出手就是开源SOTA

特别值得一提的是,模型在长视频生成方面具有独特优势,能够保持视频内容的连贯性和稳定性,有效避免了常见质量衰减问题。在训练过程中,研究团队采用了多奖励融合的优化策略,确保模型在视觉质量、运动流畅度和语义对齐等多个维度上取得均衡表现。

这一开源项目的另一个亮点是其采用了宽松的MIT许可协议,这意味着企业和开发者可以自由地进行商业应用,这一决策在业界获得了广泛好评。业内专家认为,LongCat-Video的发布标志着我们在探索视频AI的道路上又迈出了重要一步。

美团视频生成模型来了!一出手就是开源SOTA

作为美团在AI领域的持续布局,LongCat-Video被视为构建更具理解能力的”世界模型”的重要尝试。美团研究团队表示,通过视频生成任务,AI系统能够学习并模拟现实世界中的物理规律和时空演化过程,这将为未来的人工智能应用开辟新的可能性。值得注意的是,这并非美团在AI领域的首次突破,此前该公司已陆续发布了多个在不同领域取得优异表现的开源模型。

开源地址:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
项目主页:
https://meituan-longcat.github.io/LongCat-Video/

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/4413

(0)
上一篇 2025年10月27日 下午12:09
下一篇 2025年10月28日 上午11:45

相关推荐

  • 揭秘宇树人形机器人5500台全球销量背后的真实买家画像与产业拐点

    近日,2026年春晚再次引入宇树科技作为机器人合作伙伴。在2025年春晚上,其人形机器人曾成为全民话题,在高密度灯光与音乐节奏中自主完成整齐划一的行走、转身与协同动作。而对于产业来说,真正值得被记住的,并不只是舞台上的几分钟。 就在几天前,宇树科技对外披露了一组此前从未公开过的数据:2025年,宇树全年机器人实际出货量超过5500台,且全部为真实销售并完成交…

    2026年1月29日
    43700
  • 扩散语言模型:从架构挑战到推理优化的深度探索

    ★ 原文链接:https://zhuanlan.zhihu.com/p/1998418717743289472 作者:王云鹤 在思考这一主题时,我首先回想起多年前一位前辈提出的问题:Transformer的下一代范式是什么? 我当时认为,Transformer是长期技术积累从量变到质变的成果,其思想(如Non-local模块)在早期视觉研究中已有体现,而卷积…

    2026年2月8日
    41600
  • 百亿资本押注具身智能!魔法原子获5亿融资,AI机器人落地进入“拼系统”新阶段

    百亿资本押注具身智能:AI机器人落地进入“拼系统”新阶段 一个越来越难回避的现实是:许多行业正在被AI重塑。 在具身智能赛道,这一信号尤为明显——机器人正从一台设备,演变为AI进入真实物理世界的行动载体。能够将模型、硬件、数据、场景与产业需求有效连接,并率先跑通商业闭环的玩家,正迅速获得资本的集中关注。 近期,魔法原子在推动生态基金布局的同时,宣布完成新一轮…

    2026年3月12日
    48300
  • Moltbook:150万AI智能体自主社交网络涌现,零代码构建引发行业热议

    过去72小时,一个名为「Moltbook」的社区迅速走红。这是一个专为AI智能体(Agent)设计的社交平台,其独特之处在于:平台上的所有发帖、评论与互动均由AI自主完成。该平台没有传统网页或用户界面,仅通过API运作。人类用户在此只能作为“旁观者”,无法直接参与发言。其名称显然是对「Facebook」的模仿。 自上线以来,「Moltbook」以惊人的速度扩…

    2026年2月1日
    85600
  • 谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

    做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。 为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。 那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。 如今,Google 将这个想法变成了现实。他们在 GitHub…

    2026年1月6日
    46000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注