视频生成 - 鲸林向海

KlingAvatar2.0：时空级联框架与共推理导演系统，让数字人拥有生动灵魂与5分钟长视频生成能力

还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗？现在，它迎来了史诗级进化。近日，快手可灵团队正式发布了 KlingAvatar2.0 技术报告。这一次，数字人不仅能“表演”，更能“生动表达”——它们将拥有更丰富的情感层次、更精准的多角色互动，对复杂文本指令的深度理解能力，以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平…

2025年12月24日

280000

大模型工程

DualCamCtrl：几何感知扩散模型革新视频生成，相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学（广州）EnVision Research 的张鸿飞（研究助理）和陈康豪（博士研究生），两位研究者均师从陈颖聪教授。你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？当前众多视频生成模型虽宣称具备「相机运动控制」能力，但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向（Ray Condition）…

2025年12月21日

197000

大模型工程

DualCamCtrl：双分支扩散模型革新视频生成，几何感知让相机运动误差降低40%

本研究的共同第一作者是来自香港科技大学（广州）EnVision Research 的张鸿飞（研究助理）和陈康豪（博士研究生），两位研究者均师从陈颖聪教授。你的生成模型真的「懂几何」吗？当前众多视频生成模型虽宣称具备「相机运动控制」能力，但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向（Ray Condition）编码了运动信息，但由于模型仍…

2025年12月21日

207000

AI产业动态

20万大奖！全球首个AI视频生成一致性挑战赛开启，AAAI 2026大佬云集定义行业新标准

随着AI视频生成技术的快速发展，“一致性”已成为制约其迈向更高质量和更广泛应用的核心挑战。视频中频繁出现的逻辑谬误、时空错乱以及角色风格突变等问题，严重影响了内容的连贯性与可信度。为应对这一关键瓶颈，在人工智能顶级会议AAAI 2026的研讨会期间，将举办一场专注于该问题的竞赛——“从片段到原生：视频生成模型中的一致性（CVM）”。该挑战赛由北京大学袁粒…

2025年12月17日

199000

AI产业动态

从Sora到Seko：视频生成“不可能三角”的破局者与AI短剧工业化之路

自Sora 2发布以来，全球科技巨头纷纷加码视频生成赛道，谷歌Veo 3.1、Runway Gen-4.5、快手Kling 2.6等迭代产品层出不穷，在控制精度、物理模拟、音画同步等维度持续突破。然而，当技术演示的光环褪去，一个根本性问题浮出水面：这些模型距离成为真正的生产力工具，究竟还有多远？答案或许隐藏在效率、成本与质量构成的“不可能三角”之中。当前主…

2025年12月15日

271000

AI产业动态

UnityVideo：统一多模态训练范式，开启视频生成模型的“物理世界理解”新纪元

在人工智能领域，视频生成技术正经历从单一模态学习向多模态统一理解的深刻变革。近期，由香港科技大学、香港中文大学、清华大学与快手可灵团队联合提出的UnityVideo框架，通过整合深度图、光流、骨骼姿态、分割掩码等多种视觉模态，构建了一个能够“理解”物理世界规律的视频生成模型。这一突破不仅显著提升了生成视频的真实性与可控性，更实现了零样本泛化能力，为视觉大模型…

2025年12月14日

180000

AI产业动态

可灵AI年末密集更新：多模态统一引擎与音画同出技术如何重塑生成式AI竞争格局

2024年12月初，可灵AI在短短五天内连续发布五项重要更新，包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能等，这一系列动作不仅展示了其在生成式AI领域的技术突破，更直接推动了行业竞争进入新的高度。本文将从技术架构、产品创新、行业影响三个维度，深入分析可灵AI此次更新的核心价值与未来趋势。 …

2025年12月10日

223000

AI产业动态

Video4Edit：将图像编辑视为退化时序过程，以1%数据实现SOTA性能

在AI图像编辑领域，高质量训练数据的稀缺一直是制约模型性能与泛化能力的关键瓶颈。传统基于扩散模型的编辑方法通常依赖大规模三元组数据（指令-源图像-编辑后图像）进行监督训练，这不仅带来高昂的数据采集与标注成本，也难以覆盖用户多样化的编辑意图。更根本的是，现有方法往往陷入“结构保持”与“纹理修改”的权衡困境：过度强调结构一致性会限制编辑的灵活性，而追求大幅语义修…

2025年12月6日

211000

AI产业动态

视频生成新范式：FFGo揭示首帧作为概念记忆体的革命性发现

在视频生成技术快速发展的今天，传统认知将视频首帧视为时间轴的起点和动画的起始画面。然而，马里兰大学、南加州大学和麻省理工学院联合研究团队的最新论文《First Frame Is the Place to Go for Video Content Customization》彻底颠覆了这一观念。研究发现，视频生成模型中的首帧实际上扮演着更为关键的角色——它并非…

2025年12月5日

184000

AI产业动态

LeMiCa：突破视频生成瓶颈的全局最优缓存加速框架

当前，基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展，生成效果逐渐逼近真实拍摄水平。然而，这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高，这一瓶颈已成为制约视频创作体验的关键障碍。来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa（Lexicographic …

2025年11月26日

191000