视频生成

  • KlingAvatar2.0:时空级联框架与共推理导演系统,让数字人拥有生动灵魂与5分钟长视频生成能力

    还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化。 近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告。这一次,数字人不仅能“表演”,更能“生动表达”——它们将拥有更丰富的情感层次、更精准的多角色互动,对复杂文本指令的深度理解能力,以及支持长达 5 分钟的视频生成。目前该模型已经在可灵平…

    2025年12月24日
    28000
  • DualCamCtrl:几何感知扩散模型革新视频生成,相机运动误差降低40%

    本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。 你的生成模型真的「懂几何」吗?还是只是在假装对齐相机轨迹? 当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。虽近期工作通过逐像素射线方向(Ray Condition)…

    2025年12月21日
    19700
  • DualCamCtrl:双分支扩散模型革新视频生成,几何感知让相机运动误差降低40%

    本研究的共同第一作者是来自香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。 你的生成模型真的「懂几何」吗? 当前众多视频生成模型虽宣称具备「相机运动控制」能力,但其控制信号通常仅依赖于相机位姿。近期工作虽通过逐像素射线方向(Ray Condition)编码了运动信息,但由于模型仍…

    2025年12月21日
    20700
  • 20万大奖!全球首个AI视频生成一致性挑战赛开启,AAAI 2026大佬云集定义行业新标准

    随着AI视频生成技术的快速发展,“一致性”已成为制约其迈向更高质量和更广泛应用的核心挑战。视频中频繁出现的逻辑谬误、时空错乱以及角色风格突变等问题,严重影响了内容的连贯性与可信度。 为应对这一关键瓶颈,在人工智能顶级会议AAAI 2026的研讨会期间,将举办一场专注于该问题的竞赛——“从片段到原生:视频生成模型中的一致性(CVM)”。 该挑战赛由北京大学袁粒…

    2025年12月17日
    19900
  • 从Sora到Seko:视频生成“不可能三角”的破局者与AI短剧工业化之路

    自Sora 2发布以来,全球科技巨头纷纷加码视频生成赛道,谷歌Veo 3.1、Runway Gen-4.5、快手Kling 2.6等迭代产品层出不穷,在控制精度、物理模拟、音画同步等维度持续突破。然而,当技术演示的光环褪去,一个根本性问题浮出水面:这些模型距离成为真正的生产力工具,究竟还有多远?答案或许隐藏在效率、成本与质量构成的“不可能三角”之中。 当前主…

    2025年12月15日
    27100
  • UnityVideo:统一多模态训练范式,开启视频生成模型的“物理世界理解”新纪元

    在人工智能领域,视频生成技术正经历从单一模态学习向多模态统一理解的深刻变革。近期,由香港科技大学、香港中文大学、清华大学与快手可灵团队联合提出的UnityVideo框架,通过整合深度图、光流、骨骼姿态、分割掩码等多种视觉模态,构建了一个能够“理解”物理世界规律的视频生成模型。这一突破不仅显著提升了生成视频的真实性与可控性,更实现了零样本泛化能力,为视觉大模型…

    2025年12月14日
    18000
  • 可灵AI年末密集更新:多模态统一引擎与音画同出技术如何重塑生成式AI竞争格局

    2024年12月初,可灵AI在短短五天内连续发布五项重要更新,包括全球首个统一的多模态视频及图片创作工具“可灵O1”、具备“音画同出”能力的可灵2.6模型、可灵数字人2.0功能等,这一系列动作不仅展示了其在生成式AI领域的技术突破,更直接推动了行业竞争进入新的高度。本文将从技术架构、产品创新、行业影响三个维度,深入分析可灵AI此次更新的核心价值与未来趋势。 …

    2025年12月10日
    22300
  • Video4Edit:将图像编辑视为退化时序过程,以1%数据实现SOTA性能

    在AI图像编辑领域,高质量训练数据的稀缺一直是制约模型性能与泛化能力的关键瓶颈。传统基于扩散模型的编辑方法通常依赖大规模三元组数据(指令-源图像-编辑后图像)进行监督训练,这不仅带来高昂的数据采集与标注成本,也难以覆盖用户多样化的编辑意图。更根本的是,现有方法往往陷入“结构保持”与“纹理修改”的权衡困境:过度强调结构一致性会限制编辑的灵活性,而追求大幅语义修…

    2025年12月6日
    21100
  • 视频生成新范式:FFGo揭示首帧作为概念记忆体的革命性发现

    在视频生成技术快速发展的今天,传统认知将视频首帧视为时间轴的起点和动画的起始画面。然而,马里兰大学、南加州大学和麻省理工学院联合研究团队的最新论文《First Frame Is the Place to Go for Video Content Customization》彻底颠覆了这一观念。研究发现,视频生成模型中的首帧实际上扮演着更为关键的角色——它并非…

    2025年12月5日
    18400
  • LeMiCa:突破视频生成瓶颈的全局最优缓存加速框架

    当前,基于Transformer架构的DiT等扩散模型在视频生成领域取得了显著进展,生成效果逐渐逼近真实拍摄水平。然而,这些模型普遍面临推理时间长、算力成本高、生成速度难以提升的瓶颈问题。随着视频生成长度增加和分辨率提高,这一瓶颈已成为制约视频创作体验的关键障碍。 来自中国联通数据科学与人工智能研究院的研究团队提出了LeMiCa(Lexicographic …

    2025年11月26日
    19100