复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

 

复旦大学博士生李淳誉为本文第一作者,主要研究领域为视频生成扩散模型;共同一作为复旦大学硕士生李佳烨。通讯作者是复旦大学教授、上海创智学院全时导师朱思语。

文本驱动的音视频数字人正从“能够生成”迈向“能够实时交互”。然而,这条道路充满挑战。一方面,视频与语音的联合生成本身是计算密集的高维任务;另一方面,若为追求速度而激进加速,嘴型同步、语音自然度及人物细节往往会同步恶化。

近期,来自上海创智学院、复旦大学等机构的研究人员提出了Hallo-Live,旨在正面攻克这一难题。该论文于2026年4月26日发布在arXiv上。该方法融合了异步双流扩散人类偏好引导蒸馏,在两张NVIDIA H200 GPU上实现了20.38 FPS的吞吐量和0.94秒的端到端延迟;与教师模型Ovi相比,吞吐量提升了16.0倍,延迟降低了99.3%,同时保持了接近教师模型的视觉质量与音画同步效果。

复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

  • 论文标题:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
  • 论文链接:https://arxiv.org/abs/2604.23632
  • 代码地址:https://github.com/fudan-generative-vision/Hallo-Live

此演示展示了Hallo-Live在动漫风格、写实人物及多说话人场景下的实时文本驱动音视频生成效果。

为何实时音视频生成如此困难?

与传统音频驱动的数字人不同,文本驱动的音视频生成需同时完成两项任务:首先“理解”文本中的人物、场景、语气及声学环境,然后同步生成对应的说话视频与语音。这意味着模型不仅要确保画面质量和语音自然度,还需将嘴型、发音、表情乃至上半身动作精准对齐至同一时间轴。

在现有工作中,Ovi等双流扩散模型已证明,将音频流和视频流分别建模,再进行跨模态融合,是一条有效路径。但问题在于,这类模型通常偏向于离线高质量生成,离实时交互仍有明显差距。作者指出,将其改造为流式系统时,会遇到两大核心瓶颈:

  • 严格因果的块级注意力无法获取“短时未来”的语音信息。 但在真实说话过程中,嘴唇动作往往先于声音出现,存在明显的协同发音现象。
  • 少步蒸馏虽能加速,但易导致“均值化”退化。 结果表现为视频纹理模糊、语音更显机械,音画对齐也更容易漂移。

Hallo-Live整体框架

Hallo-Live包含两个训练阶段。第一阶段为双流ODE初始化:模型同时输入不同噪声水平的音视频块,基于单模态和跨模态的块级因果掩码训练双流DiT,使训练阶段的可见性约束与流式推理保持一致。第二阶段为自展开+双流DMD:学生模型基于音视频KV缓存自回归生成完整音视频,随后引入与音频、视频及音视频同步相关的奖励,对双流DMD损失进行加权,从而将教师模型蒸馏为少步模型。

复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

因果融合模块是Hallo-Live双流DiT的核心单元:视频流和音频流首先分别进行单模态块级因果自注意力计算,然后注入文本条件,再通过跨模态块级因果交叉注意力交换信息,在流式生成过程中完成音视频融合。其中,视频到音频的注意力采用未来扩展块级因果掩码,使当前视频块能够看到少量未来音频上下文。

复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

关键技术1:未来扩展注意力

论文的第一个创新设计是未来扩展注意力。作者观察到,如果视频流只能看到当前和过去的音频块,模型很难做出自然的提前张口、闭口、唇齿过渡等动作。因此,他们将视频到音频的跨模态注意力设计为“非对称”的:视频仍聚焦于当前块,但音频键值范围会额外向前扩展一小段前瞻窗口。

这相当于为视频流提供了一个短时的“预读区”。重要的是,这个未来音频块并非最终输出,而是一个临时的、可被下一步覆盖的过渡块,因此不会影响最终生成的音频质量。

复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

直观上看,严格块级因果注意力只能看到当前音频,而未来扩展注意力允许视频块访问少量未来音频,从而改善口型同步效果。

关键技术2:将“偏好”直接蒸馏进学生模型

如果说未来扩展注意力解决了“看不见未来语音”的问题,那么HP-DMD则解决了“加速后为何会变丑、变僵、变不同步”的问题。

作者的做法是将蒸馏目标从单纯模仿教师分布,转向“奖励加权后的教师分布”。其中:

  • VideoAlign 负责衡量视频美学与文本/画面对齐。
  • SyncNet 负责衡量唇形与语音是否同步。
  • AudioBox 负责衡量语音自然度与声学质量。

用更接近强化学习/奖励优化的语言描述,Hallo-Live的核心并非直接进行策略梯度,而是先为学生模型生成的样本打分,再将这些奖励通过指数重加权注入蒸馏目标。从分布视角看,这等价于不再单纯拟合教师分布p_T,而是去拟合一个被奖励倾斜过的新目标分布。

直观理解,这套写法更像“奖励加权蒸馏”,而非传统强化学习中的策略梯度更新:模型并不直接对动作概率进行RL优化,而是通过奖励重新塑形学生要逼近的目标分布。

结果如何?速度几乎“断层领先”,质量接近重型教师模型

从主要结果来看,Hallo-Live最突出的优势是将文本到音视频生成首次真正推入了实时区间。

复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

从指标结果来看:

  • 速度:Hallo-Live达到20.38 FPS、0.94秒延迟,明显快于Ovi、LTX-2、JavisDiT和UniVerse-1等方法。
  • 质量:在VideoAlign Overall(2.32)、Sync-C(4.72)以及人类保真度(0.90/0.98/0.92)等指标上,Hallo-Live整体接近Ovi和LTX-2,并未因提速而出现明显失真。

这组结果表明,Hallo-Live并非以极端牺牲质量来换取速度,而是在基本守住质量的前提下,将系统推至可交互的速度等级。对于数字人直播、角色扮演和虚拟主持等场景,这一点至关重要。

意义与展望

Hallo-Live的价值不仅在于提升了速度,更在于提出了一条极具代表性的技术路线:在保持流式因果生成框架的前提下,完成视频和语音的联合生成。 对数字人行业而言,它提供了一种可部署、可交互、可扩展的模型形态。

当然,论文并未宣称所有问题已彻底解决。例如,从指标来看,Hallo-Live 在同步性和语音质量方面仍未全面超越最强的离线或重型模型;同时,当前的实验平台仍需依赖两张 NVIDIA H200,距离在低成本硬件上部署还有优化余地。然而,若将“实时文本驱动的音视频数字人”视为一个长期目标,Hallo-Live 已给出了相当明确的阶段性答案。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36258

(0)
上一篇 4小时前
下一篇 4小时前

相关推荐

  • AI周报:字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

    12月15日 【闭源】 字节跳动发布豆包 doubao-seed-1-8-251215,在Agent能力、多模态理解和上下文管理三大方面实现突破。其工具调用、复杂指令遵循和操作系统代理能力大幅增强;视觉理解基础能力显著提升,支持低帧率理解超长视频,在视频运动理解、复杂空间理解和文档结构化解析能力上全面升级;原生支持智能上下文管理,可配置上下文压缩策略,在任务…

    2025年12月22日
    47300
  • 移动端高保真实时3D数字人革命:HRM²Avatar如何用单部手机突破SIGGRAPH Asia

    在计算机图形学、三维视觉、虚拟人与XR技术领域,SIGGRAPH Asia作为SIGGRAPH系列两大主会之一,始终代表着全球学术与工业界的最高研究水平与最前沿技术趋势。今年,淘宝技术-Meta技术团队凭借其自主研发的移动端高保真实时3D数字人重建与渲染系统HRM²Avatar,首次登陆这一国际顶级会议,标志着中国在轻量化数字人技术领域实现了重大突破。 当前…

    2025年12月18日
    60200
  • 机器人精细动作大突破!Physical Intelligence用RL token技术,十几分钟学会插网线拧螺丝

    都说机器人学习速度慢,精细动作做不好,影响了进厂打螺丝的进度。以后,这可能不成问题了。 具身智能领域的Physical Intelligence公布了一项新进展:他们借助一种名为「RL token」的方法,仅需十几分钟或几小时的真实世界经验,就能让机器人掌握插网线、拧微型螺丝、插充电线等极其精细的操作。 过去一年,机器人已经能干不少粗略的活儿,比如叠衣服、端…

    2026年3月21日
    60900
  • 效率革命:微博VibeThinker以15亿参数重塑大模型竞争格局

    在AI行业普遍陷入“参数崇拜”的背景下,微博AI近期发布的VibeThinker开源大模型,以仅15亿参数的轻量级架构,在国际顶级数学竞赛基准测试中击败了参数量高达6710亿的DeepSeek R1模型,这一突破性成果不仅挑战了传统技术评价标准,更可能引发AI产业从“规模竞赛”向“效率革命”的深刻转型。 ### 技术范式突破:小模型如何实现复杂推理能力 长期…

    2025年11月18日
    41700
  • 医疗AI新突破:CA-GPT系统在心脏介入手术决策中完胜ChatGPT-5,RAG+DeepSeek架构重塑垂直领域智能化标准

    在通用大模型(LLM)席卷全球的浪潮中,医疗垂直领域始终被视为AI落地的“硬骨头”。虽然ChatGPT在USMLE(美国执业医师资格考试)等标准化测试中表现优异,但在需要精准判断和实时决策的临床场景中,通用大模型的局限性日益凸显。近日,一项由空军军医大学唐都医院李妍教授团队与深圳清华大学研究院朱锐团队联合完成的COMPARE研究在arXiv预印本平台发表,研…

    2025年12月16日
    42100