视频生成
-
快手拟分拆可灵AI独立上市,估值200亿美元逼近母公司市值七成
快手拟分拆可灵AI独立上市,估值200亿美元逼近母公司市值七成 快手,或许要亲手孵化出第二个“快手”了。 据The Information爆料,快手正计划将旗下视频生成模型可灵AI进行分拆,目标估值高达200亿美元,并计划于明年启动IPO。 这个数字有多惊人?它几乎与快手本身一样夸张。 截至5月11日港股收盘,快手科技市值约为2243亿港元,折合约290亿美…
-
SIGGRAPH 2026接收!UniVidX统一框架实现多模态视频生成新突破
近日,来自香港科技大学 MMLab 及其合作团队的研究成果——「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」,已被计算机图形学顶级会议 SIGGRAPH 2026 正式收录。 论文地址:https://arxiv.org…
-
LINVIDEO:无需数据重训,视频扩散模型线性化提速20倍,CVPR 2024新突破
无需数据重训,视频扩散模型线性化提速20倍:CVPR 2024新突破 视频生成已进入大规模时代,但随之而来的计算成本急剧攀升。生成一段10秒的视频,其token数量可超过5万,而模型核心的自注意力机制复杂度为O(n²),导致推理过程极其缓慢,难以实用。 将自注意力替换为复杂度为O(n)的线性注意力,是理想的解决方案,但现实情况是:直接替换会导致模型生成质量严…
-
字节携手北大开源Helios视频模型:14B参数实现19.5FPS,登顶Hugging Face!
春节期间,Seedance 2.0 的爆火将视频生成技术再次推向风口。紧随其后,字节跳动联合北京大学、安努智能及 Canva 共同开源了具备实时生成能力的视频模型系列——Helios。该系列包含 Helios-Base、Helios-Mid 与 Helios-Distilled 三个版本,全面支持文本到视频(T2V)、图像到视频(I2V)、视频到视频(V2V…
-
清华×斯坦福联手打造Ctrl-World世界模型,具身智能评测登顶全球,视频生成力压谷歌英伟达
在全球具身智能领域的权威评测 WorldArena 榜单中,由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩: 具身任务能力综合排名全球第一,并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶; 视频生成能力排名全球第二,仅次于阿里 Wan 2.6,超越了谷歌 Veo…
-
视频生成迈向通用世界模拟器:从视觉保真到因果推理的技术演进
近年来,视频生成(Video Generation)与世界模型(World Models)已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」,促使学界与业界开始严肃探讨:能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。 与…
-
蚂蚁开源LingBot-World世界模型:挑战谷歌Genie 3,一张图生成10分钟稳定交互视频
蚂蚁开源世界模型,为机器人造“元宇宙训练场”。 智东西1月29日报道,蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面(来源:Hugging Face) LingBot-Worl…
-
蚂蚁灵波开源世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3
蚂蚁灵波开源通用世界模型LingBot-World:支持10分钟实时交互,媲美Genie 3 在连续开源机器人的眼睛(LingBot-Depth)与大脑(LingBot-VLA)之后,蚂蚁灵波(Ant LingBot)团队再次发布了一项重要成果: 通用的世界模型——LingBot-World。 该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…
-
AutoMV:首个开源全曲级MV生成Agent,实现音画同步与人物一致性
AutoMV团队 投稿 量子位 | 公众号 QbitAI 现有的AI视频生成模型虽然在短片上效果惊人,但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。 近日,来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV。 这是一个无需训练的多智能体(Multi-Agent)系统,它像一个专…
-
Virtually Being:多视角身份一致视频生成框架,让AI真正“看清”人物
第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年获得美国马里兰大学帕克分校博士学位。 最后作者于宁是 Netflix Eyeline 资深研究科学家,带领视频生成 AI 在影视制作中的研发。他曾就职于 Sal…
