美团视频生成模型来了!一出手就是开源SOTA

美团推出开源视频生成模型LongCat-Video,该模型在文生视频、图生视频和长视频生成等多个任务上达到先进水平,通过技术创新实现了高质量、长时序的视频内容生成,为视频创作和AI世界模型研究提供了新的工具和思路。

美团最新发布了一款名为LongCat-Video的开源视频生成模型,该模型以其13.6B的参数量,在文生视频图生视频和视频延长等多个任务上展现出卓越性能。

美团视频生成模型来了!一出手就是开源SOTA

这一模型能够生成长达数分钟的高质量视频内容,在多项评测中表现亮眼,其文生视频能力在开源领域处于领先地位,部分核心指标甚至可与业界顶尖的闭源模型相媲美。

美团视频生成模型来了!一出手就是开源SOTA

从技术层面来看,LongCat-Video采用基于Diffusion Transformer的创新架构,通过统一的任务定义和精心设计的注意力机制,实现了多任务的协同训练与推理。

美团视频生成模型来了!一出手就是开源SOTA

特别值得一提的是,模型在长视频生成方面具有独特优势,能够保持视频内容的连贯性和稳定性,有效避免了常见质量衰减问题。在训练过程中,研究团队采用了多奖励融合的优化策略,确保模型在视觉质量、运动流畅度和语义对齐等多个维度上取得均衡表现。

这一开源项目的另一个亮点是其采用了宽松的MIT许可协议,这意味着企业和开发者可以自由地进行商业应用,这一决策在业界获得了广泛好评。业内专家认为,LongCat-Video的发布标志着我们在探索视频AI的道路上又迈出了重要一步。

美团视频生成模型来了!一出手就是开源SOTA

作为美团在AI领域的持续布局,LongCat-Video被视为构建更具理解能力的”世界模型”的重要尝试。美团研究团队表示,通过视频生成任务,AI系统能够学习并模拟现实世界中的物理规律和时空演化过程,这将为未来的人工智能应用开辟新的可能性。值得注意的是,这并非美团在AI领域的首次突破,此前该公司已陆续发布了多个在不同领域取得优异表现的开源模型。

开源地址:
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
项目主页:
https://meituan-longcat.github.io/LongCat-Video/

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4413

(0)
上一篇 2025年10月27日 下午12:09
下一篇 2025年10月28日 上午11:45

相关推荐

  • OpenAI挖角英特尔首席AI官:算力军备竞赛下的巨头人才争夺战

    今天,人工智能领域的格局再次因一次关键人事变动而震动——英特尔首席技术官兼首席AI官Sachin Katti宣布离职,并正式加入OpenAI,负责构建面向通用人工智能(AGI)的算力基础设施。这一事件不仅揭示了OpenAI在算力布局上的战略野心,也暴露了传统芯片巨头英特尔在AI转型中的深层困境。 从技术背景来看,Sachin Katti的加入对OpenAI具…

    2025年11月11日
    7400
  • AI巨头的商业分岔:OpenAI的规模扩张与Anthropic的利润深耕

    2025年的AI产业格局正在经历一场深刻的结构性分化。OpenAI与Anthropic这两家源自同一技术血脉的公司,正沿着截然不同的商业路径向前推进——前者致力于构建面向大众的AI生态系统,后者则专注于企业级市场的利润深耕。这种分化不仅反映了AI技术商业化进程中的战略选择差异,更预示着整个行业将从技术驱动转向商业可持续性驱动的关键转折。 从技术同源到商业分道…

    2025年11月24日
    8100
  • 从ATEC2025看具身智能的户外困境:感知局限与决策瓶颈如何制约机器人真正自主

    在第五届ATEC科技精英赛——全球首个全自主、全真实户外场景的机器人竞技场上,一个残酷的现实被反复验证:当人形机器人离开实验室的温室环境,面对真实的户外世界时,其通用能力遭遇了前所未有的挑战。香港中文大学山间小道上,一只人形机器人试图完成500米定向越野,却在跨越三十度小桥、走过石路、迈过台阶后,于九十度弯道处重心失衡仰面倒下。 同样的困境出现在岭南体育场的…

    2025年12月9日
    8600
  • GigaWorld-0:世界模型驱动VLA性能跃升300%,具身智能迈入数据高效新纪元

    在具身智能迈向开放世界落地的进程中,长期制约其发展的核心瓶颈并非算法本身,而是高质量、大规模真实机器人交互数据的极度稀缺。真机数据采集成本高昂、周期漫长,且难以覆盖多样化的开放场景,严重限制了视觉语言动作(VLA)大模型的规模化训练与泛化能力。传统仿真方法虽能快速生成数据,却受限于显著的Sim-to-Real差距,难以支撑真实世界的鲁棒部署。世界模型(Wor…

    2025年12月2日
    8100
  • TPU订单背后的算力博弈:谷歌、英伟达与AI芯片市场的真实格局

    近期,Meta被曝将与谷歌签订价值数十亿美元的TPU订单,这一消息在资本市场引发剧烈震荡:英伟达盘中最大跌幅达7%,市值一度蒸发超3000亿美元;而谷歌股价则一度上涨4%,市值增加约1500亿美元。《华尔街日报》将此解读为谷歌向英伟达市场主导地位发起冲击的信号。然而,从技术演进与产业生态的深层视角审视,这场看似突如其来的“算力变局”,实则揭示了AI芯片市场更…

    2025年11月29日
    7400

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注