视频生成

  • LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破

    无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…

    2026年3月10日
    10100
  • 字节携手北大开源Helios视频模型:14B参数实现19.5FPS,登顶Hugging Face!

    春节期间,Seedance 2.0 的爆火将视频生成技术再次推向风口。紧随其后,字节跳动联合北京大学、安努智能及 Canva 共同开源了具备实时生成能力的视频模型系列——Helios。该系列包含 Helios-Base、Helios-Mid 与 Helios-Distilled 三个版本,全面支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V…

    2026年3月7日
    12200
  • 清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达

    在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…

    2026年2月26日
    28300
  • 视频生成迈向通用世界模拟器:从视觉保真到因果推理的技术演进

    近年来,视频生成(Video Generation)与世界模型(World Models)已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,促使学界与业界开始严肃探讨:能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。 与…

    2026年2月7日
    7800
  • 蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频

    蚂蚁开源世界模型,为机器人造“元宇宙训练场”。 智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面(来源:Hugging Face) LingBot-Worl…

    2026年1月29日
    18000
  • 蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3

    蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果: 通用的世界模型——LingBot-World。 该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…

    2026年1月29日
    35500
  • AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性

    AutoMV团队 投稿 量子位 | 公众号 QbitAI 现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。 近日,来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV。 这是一个无需训练的多智能体(Multi-Agent)系统,它像一个专…

    2025年12月29日
    37200
  • Virtually Being:多视角身份一致视频生成框架,让AI真正“看清”人物

    第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年获得美国马里兰大学帕克分校博士学位。 最后作者于宁是 Netflix Eyeline 资深研究科学家,带领视频生成 AI 在影视制作中的研发。他曾就职于 Sal…

    2025年12月27日
    25100
  • 清华&生数开源TurboDiffusion:视频生成加速200倍,实时创作时代来临

    在2025年末,一个全新视频生成加速框架的开源,宣告了“等待数分钟才能生成一个视频”的时代已经终结。 这个框架正是清华大学TSAIL团队与生数科技联合发布的TurboDiffusion。 其加速效果极为显著:在几乎不影响生成质量的前提下,主流视频生成模型在单张RTX 5090上生成5秒720p视频的速度可提升约200倍,同时一个5秒480p视频的生成时长能被…

    2025年12月26日
    20800
  • 清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍

    清华联手生数开源TurboDiffusion:单卡2秒生成视频,速度提升200倍 现在,生成一个视频可能比你刷视频还要快。 一个开源新框架,能让视频生成在保证质量的情况下,最高提速200多倍,并且仅需单张显卡即可实现。 以1.3B参数、480P分辨率的模型为例,在单张RTX 5090上生成一段5秒视频,原始方法需要约184秒。而采用新框架后,时间缩短至1.9…

    2025年12月25日
    18200