美团视频生成模型来了！一出手就是开源SOTA

2025年10月27日下午4:08 • AI产业动态 • 阅读 322

美团最新发布了一款名为LongCat-Video的开源视频生成模型，该模型以其13.6B的参数量，在文生视频、图生视频和视频延长等多个任务上展现出卓越性能。

这一模型能够生成长达数分钟的高质量视频内容，在多项评测中表现亮眼，其文生视频能力在开源领域处于领先地位，部分核心指标甚至可与业界顶尖的闭源模型相媲美。

从技术层面来看，LongCat-Video采用基于Diffusion Transformer的创新架构，通过统一的任务定义和精心设计的注意力机制，实现了多任务的协同训练与推理。

特别值得一提的是，模型在长视频生成方面具有独特优势，能够保持视频内容的连贯性和稳定性，有效避免了常见质量衰减问题。在训练过程中，研究团队采用了多奖励融合的优化策略，确保模型在视觉质量、运动流畅度和语义对齐等多个维度上取得均衡表现。

这一开源项目的另一个亮点是其采用了宽松的MIT许可协议，这意味着企业和开发者可以自由地进行商业应用，这一决策在业界获得了广泛好评。业内专家认为，LongCat-Video的发布标志着我们在探索视频AI的道路上又迈出了重要一步。

作为美团在AI领域的持续布局，LongCat-Video被视为构建更具理解能力的”世界模型”的重要尝试。美团研究团队表示，通过视频生成任务，AI系统能够学习并模拟现实世界中的物理规律和时空演化过程，这将为未来的人工智能应用开辟新的可能性。值得注意的是，这并非美团在AI领域的首次突破，此前该公司已陆续发布了多个在不同领域取得优异表现的开源模型。

开源地址：
https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
项目主页：
https://meituan-longcat.github.io/LongCat-Video/

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/4413

美团视频生成模型来了！一出手就是开源SOTA

相关推荐

强化学习教父Sutton的回归宣言：当AI学完人类数据，经验驱动的智能时代正在开启

MCP协议反思：当Agent工具标准化遭遇现实困境，轻量化CLI方案能否破局？

2025年AI大分流：100万亿Token数据揭示开源崛起、推理为王与亚洲时刻

AI Agent架构评测：从实验室到生产环境的Skills解耦工程化实践

智能代理研究全景：从理论到实践的全面解读与资源导航

发表回复