复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

复旦大学博士生李淳誉为本文第一作者，主要研究领域为视频生成扩散模型；共同一作为复旦大学硕士生李佳烨。通讯作者是复旦大学教授、上海创智学院全时导师朱思语。

文本驱动的音视频数字人正从“能够生成”迈向“能够实时交互”。然而，这条道路充满挑战。一方面，视频与语音的联合生成本身是计算密集的高维任务；另一方面，若为追求速度而激进加速，嘴型同步、语音自然度及人物细节往往会同步恶化。

近期，来自上海创智学院、复旦大学等机构的研究人员提出了Hallo-Live，旨在正面攻克这一难题。该论文于2026年4月26日发布在arXiv上。该方法融合了异步双流扩散与人类偏好引导蒸馏，在两张NVIDIA H200 GPU上实现了20.38 FPS的吞吐量和0.94秒的端到端延迟；与教师模型Ovi相比，吞吐量提升了16.0倍，延迟降低了99.3%，同时保持了接近教师模型的视觉质量与音画同步效果。

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

论文标题：Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
论文链接：https://arxiv.org/abs/2604.23632
代码地址：https://github.com/fudan-generative-vision/Hallo-Live

此演示展示了Hallo-Live在动漫风格、写实人物及多说话人场景下的实时文本驱动音视频生成效果。

为何实时音视频生成如此困难？

与传统音频驱动的数字人不同，文本驱动的音视频生成需同时完成两项任务：首先“理解”文本中的人物、场景、语气及声学环境，然后同步生成对应的说话视频与语音。这意味着模型不仅要确保画面质量和语音自然度，还需将嘴型、发音、表情乃至上半身动作精准对齐至同一时间轴。

在现有工作中，Ovi等双流扩散模型已证明，将音频流和视频流分别建模，再进行跨模态融合，是一条有效路径。但问题在于，这类模型通常偏向于离线高质量生成，离实时交互仍有明显差距。作者指出，将其改造为流式系统时，会遇到两大核心瓶颈：

严格因果的块级注意力无法获取“短时未来”的语音信息。 但在真实说话过程中，嘴唇动作往往先于声音出现，存在明显的协同发音现象。
少步蒸馏虽能加速，但易导致“均值化”退化。 结果表现为视频纹理模糊、语音更显机械，音画对齐也更容易漂移。

Hallo-Live整体框架

Hallo-Live包含两个训练阶段。第一阶段为双流ODE初始化：模型同时输入不同噪声水平的音视频块，基于单模态和跨模态的块级因果掩码训练双流DiT，使训练阶段的可见性约束与流式推理保持一致。第二阶段为自展开+双流DMD：学生模型基于音视频KV缓存自回归生成完整音视频，随后引入与音频、视频及音视频同步相关的奖励，对双流DMD损失进行加权，从而将教师模型蒸馏为少步模型。

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

因果融合模块是Hallo-Live双流DiT的核心单元：视频流和音频流首先分别进行单模态块级因果自注意力计算，然后注入文本条件，再通过跨模态块级因果交叉注意力交换信息，在流式生成过程中完成音视频融合。其中，视频到音频的注意力采用未来扩展块级因果掩码，使当前视频块能够看到少量未来音频上下文。

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

关键技术1：未来扩展注意力

论文的第一个创新设计是未来扩展注意力。作者观察到，如果视频流只能看到当前和过去的音频块，模型很难做出自然的提前张口、闭口、唇齿过渡等动作。因此，他们将视频到音频的跨模态注意力设计为“非对称”的：视频仍聚焦于当前块，但音频键值范围会额外向前扩展一小段前瞻窗口。

这相当于为视频流提供了一个短时的“预读区”。重要的是，这个未来音频块并非最终输出，而是一个临时的、可被下一步覆盖的过渡块，因此不会影响最终生成的音频质量。

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

直观上看，严格块级因果注意力只能看到当前音频，而未来扩展注意力允许视频块访问少量未来音频，从而改善口型同步效果。

关键技术2：将“偏好”直接蒸馏进学生模型

如果说未来扩展注意力解决了“看不见未来语音”的问题，那么HP-DMD则解决了“加速后为何会变丑、变僵、变不同步”的问题。

作者的做法是将蒸馏目标从单纯模仿教师分布，转向“奖励加权后的教师分布”。其中：

VideoAlign 负责衡量视频美学与文本/画面对齐。
SyncNet 负责衡量唇形与语音是否同步。
AudioBox 负责衡量语音自然度与声学质量。

用更接近强化学习/奖励优化的语言描述，Hallo-Live的核心并非直接进行策略梯度，而是先为学生模型生成的样本打分，再将这些奖励通过指数重加权注入蒸馏目标。从分布视角看，这等价于不再单纯拟合教师分布p_T，而是去拟合一个被奖励倾斜过的新目标分布。

直观理解，这套写法更像“奖励加权蒸馏”，而非传统强化学习中的策略梯度更新：模型并不直接对动作概率进行RL优化，而是通过奖励重新塑形学生要逼近的目标分布。

结果如何？速度几乎“断层领先”，质量接近重型教师模型

从主要结果来看，Hallo-Live最突出的优势是将文本到音视频生成首次真正推入了实时区间。

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

从指标结果来看：

速度：Hallo-Live达到20.38 FPS、0.94秒延迟，明显快于Ovi、LTX-2、JavisDiT和UniVerse-1等方法。
质量：在VideoAlign Overall（2.32）、Sync-C（4.72）以及人类保真度（0.90/0.98/0.92）等指标上，Hallo-Live整体接近Ovi和LTX-2，并未因提速而出现明显失真。

这组结果表明，Hallo-Live并非以极端牺牲质量来换取速度，而是在基本守住质量的前提下，将系统推至可交互的速度等级。对于数字人直播、角色扮演和虚拟主持等场景，这一点至关重要。

意义与展望

Hallo-Live的价值不仅在于提升了速度，更在于提出了一条极具代表性的技术路线：在保持流式因果生成框架的前提下，完成视频和语音的联合生成。 对数字人行业而言，它提供了一种可部署、可交互、可扩展的模型形态。

当然，论文并未宣称所有问题已彻底解决。例如，从指标来看，Hallo-Live 在同步性和语音质量方面仍未全面超越最强的离线或重型模型；同时，当前的实验平台仍需依赖两张 NVIDIA H200，距离在低成本硬件上部署还有优化余地。然而，若将“实时文本驱动的音视频数字人”视为一个长期目标，Hallo-Live 已给出了相当明确的阶段性答案。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/36258

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

意义与展望

相关推荐

AI周报：字节豆包Agent突破、通义语音全家桶、谷歌Gemini 3 Flash亮相

移动端高保真实时3D数字人革命：HRM²Avatar如何用单部手机突破SIGGRAPH Asia

机器人精细动作大突破！Physical Intelligence用RL token技术，十几分钟学会插网线拧螺丝

效率革命：微博VibeThinker以15亿参数重塑大模型竞争格局

医疗AI新突破：CA-GPT系统在心脏介入手术决策中完胜ChatGPT-5，RAG+DeepSeek架构重塑垂直领域智能化标准