视频生成 - 鲸林向海

快手拟分拆可灵AI独立上市，估值200亿美元逼近母公司市值七成

快手拟分拆可灵AI独立上市，估值200亿美元逼近母公司市值七成快手，或许要亲手孵化出第二个“快手”了。据The Information爆料，快手正计划将旗下视频生成模型可灵AI进行分拆，目标估值高达200亿美元，并计划于明年启动IPO。这个数字有多惊人？它几乎与快手本身一样夸张。截至5月11日港股收盘，快手科技市值约为2243亿港元，折合约290亿美…

18小时前

91000

AI产业动态

SIGGRAPH 2026接收！UniVidX统一框架实现多模态视频生成新突破

近日，来自香港科技大学 MMLab 及其合作团队的研究成果——「UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors」，已被计算机图形学顶级会议 SIGGRAPH 2026 正式收录。论文地址：https://arxiv.org…

1天前

124000

大模型推理

LINVIDEO：无需数据重训，视频扩散模型线性化提速20倍，CVPR 2024新突破

无需数据重训，视频扩散模型线性化提速20倍：CVPR 2024新突破视频生成已进入大规模时代，但随之而来的计算成本急剧攀升。生成一段10秒的视频，其token数量可超过5万，而模型核心的自注意力机制复杂度为O(n²)，导致推理过程极其缓慢，难以实用。将自注意力替换为复杂度为O(n)的线性注意力，是理想的解决方案，但现实情况是：直接替换会导致模型生成质量严…

2026年3月10日

305000

开源项目

字节携手北大开源Helios视频模型：14B参数实现19.5FPS，登顶Hugging Face！

春节期间，Seedance 2.0 的爆火将视频生成技术再次推向风口。紧随其后，字节跳动联合北京大学、安努智能及 Canva 共同开源了具备实时生成能力的视频模型系列——Helios。该系列包含 Helios-Base、Helios-Mid 与 Helios-Distilled 三个版本，全面支持文本到视频（T2V）、图像到视频（I2V）、视频到视频（V2V…

2026年3月7日

648000

大模型评测

清华×斯坦福联手打造Ctrl-World世界模型，具身智能评测登顶全球，视频生成力压谷歌英伟达

在全球具身智能领域的权威评测 WorldArena 榜单中，由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩：具身任务能力综合排名全球第一，并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶；视频生成能力排名全球第二，仅次于阿里 Wan 2.6，超越了谷歌 Veo…

2026年2月26日

568000

AI产业动态

视频生成迈向通用世界模拟器：从视觉保真到因果推理的技术演进

近年来，视频生成（Video Generation）与世界模型（World Models）已成为人工智能领域最受瞩目的研究方向之一。从 Sora 到可灵（Kling），视频生成模型在运动连续性、物体交互与部分物理先验上逐渐表现出更强的「世界一致性」，促使学界与业界开始严肃探讨：能否将视频生成从「逼真短片」推进到可用于推理、规划与控制的「通用世界模拟器」。与…

2026年2月7日

503000

AI产业动态

蚂蚁开源LingBot-World世界模型：挑战谷歌Genie 3，一张图生成10分钟稳定交互视频

蚂蚁开源世界模型，为机器人造“元宇宙训练场”。智东西1月29日报道，蚂蚁灵波科技发布并开源了世界模型LingBot-World。该模型是一个专为交互式世界模型设计的开源框架。其核心LingBot-World-Base能够提供高保真、可控制且逻辑一致的模拟环境。 ▲LingBot-World开源页面（来源：Hugging Face） LingBot-Worl…

2026年1月29日

344000

AI产业动态

蚂蚁灵波开源世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3

蚂蚁灵波开源通用世界模型LingBot-World：支持10分钟实时交互，媲美Genie 3 在连续开源机器人的眼睛（LingBot-Depth）与大脑（LingBot-VLA）之后，蚂蚁灵波（Ant LingBot）团队再次发布了一项重要成果：通用的世界模型——LingBot-World。该模型能够支持长达10分钟的持续生成与实时交互。其视觉效果已可与…

2026年1月29日

711000

开源项目

AutoMV：首个开源全曲级MV生成Agent，实现音画同步与人物一致性

AutoMV团队投稿量子位 | 公众号 QbitAI 现有的AI视频生成模型虽然在短片上效果惊人，但面对一首完整的歌曲时往往束手无策——画面不连贯、人物换脸、甚至完全不理会歌词含义。近日，来自M-A-P、北京邮电大学、南京大学NJU-LINK实验室等机构的研究者们提出了AutoMV。这是一个无需训练的多智能体（Multi-Agent）系统，它像一个专…

2025年12月29日

818000

大模型工程

Virtually Being：多视角身份一致视频生成框架，让AI真正“看清”人物

第一作者徐源诚是 Netflix Eyeline 的研究科学家，专注于基础 AI 模型的研究与开发，涵盖多模态理解、推理、交互与生成，重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年获得美国马里兰大学帕克分校博士学位。最后作者于宁是 Netflix Eyeline 资深研究科学家，带领视频生成 AI 在影视制作中的研发。他曾就职于 Sal…

2025年12月27日

443000