复旦大学博士生李淳誉为本文第一作者,主要研究领域为视频生成扩散模型;共同一作为复旦大学硕士生李佳烨。通讯作者是复旦大学教授、上海创智学院全时导师朱思语。
文本驱动的音视频数字人正从“能够生成”迈向“能够实时交互”。然而,这条道路充满挑战。一方面,视频与语音的联合生成本身是计算密集的高维任务;另一方面,若为追求速度而激进加速,嘴型同步、语音自然度及人物细节往往会同步恶化。
近期,来自上海创智学院、复旦大学等机构的研究人员提出了Hallo-Live,旨在正面攻克这一难题。该论文于2026年4月26日发布在arXiv上。该方法融合了异步双流扩散与人类偏好引导蒸馏,在两张NVIDIA H200 GPU上实现了20.38 FPS的吞吐量和0.94秒的端到端延迟;与教师模型Ovi相比,吞吐量提升了16.0倍,延迟降低了99.3%,同时保持了接近教师模型的视觉质量与音画同步效果。

- 论文标题:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
- 论文链接:https://arxiv.org/abs/2604.23632
- 代码地址:https://github.com/fudan-generative-vision/Hallo-Live
此演示展示了Hallo-Live在动漫风格、写实人物及多说话人场景下的实时文本驱动音视频生成效果。
为何实时音视频生成如此困难?
与传统音频驱动的数字人不同,文本驱动的音视频生成需同时完成两项任务:首先“理解”文本中的人物、场景、语气及声学环境,然后同步生成对应的说话视频与语音。这意味着模型不仅要确保画面质量和语音自然度,还需将嘴型、发音、表情乃至上半身动作精准对齐至同一时间轴。
在现有工作中,Ovi等双流扩散模型已证明,将音频流和视频流分别建模,再进行跨模态融合,是一条有效路径。但问题在于,这类模型通常偏向于离线高质量生成,离实时交互仍有明显差距。作者指出,将其改造为流式系统时,会遇到两大核心瓶颈:
- 严格因果的块级注意力无法获取“短时未来”的语音信息。 但在真实说话过程中,嘴唇动作往往先于声音出现,存在明显的协同发音现象。
- 少步蒸馏虽能加速,但易导致“均值化”退化。 结果表现为视频纹理模糊、语音更显机械,音画对齐也更容易漂移。
Hallo-Live整体框架
Hallo-Live包含两个训练阶段。第一阶段为双流ODE初始化:模型同时输入不同噪声水平的音视频块,基于单模态和跨模态的块级因果掩码训练双流DiT,使训练阶段的可见性约束与流式推理保持一致。第二阶段为自展开+双流DMD:学生模型基于音视频KV缓存自回归生成完整音视频,随后引入与音频、视频及音视频同步相关的奖励,对双流DMD损失进行加权,从而将教师模型蒸馏为少步模型。

因果融合模块是Hallo-Live双流DiT的核心单元:视频流和音频流首先分别进行单模态块级因果自注意力计算,然后注入文本条件,再通过跨模态块级因果交叉注意力交换信息,在流式生成过程中完成音视频融合。其中,视频到音频的注意力采用未来扩展块级因果掩码,使当前视频块能够看到少量未来音频上下文。

关键技术1:未来扩展注意力
论文的第一个创新设计是未来扩展注意力。作者观察到,如果视频流只能看到当前和过去的音频块,模型很难做出自然的提前张口、闭口、唇齿过渡等动作。因此,他们将视频到音频的跨模态注意力设计为“非对称”的:视频仍聚焦于当前块,但音频键值范围会额外向前扩展一小段前瞻窗口。
这相当于为视频流提供了一个短时的“预读区”。重要的是,这个未来音频块并非最终输出,而是一个临时的、可被下一步覆盖的过渡块,因此不会影响最终生成的音频质量。

直观上看,严格块级因果注意力只能看到当前音频,而未来扩展注意力允许视频块访问少量未来音频,从而改善口型同步效果。
关键技术2:将“偏好”直接蒸馏进学生模型
如果说未来扩展注意力解决了“看不见未来语音”的问题,那么HP-DMD则解决了“加速后为何会变丑、变僵、变不同步”的问题。
作者的做法是将蒸馏目标从单纯模仿教师分布,转向“奖励加权后的教师分布”。其中:
- VideoAlign 负责衡量视频美学与文本/画面对齐。
- SyncNet 负责衡量唇形与语音是否同步。
- AudioBox 负责衡量语音自然度与声学质量。
用更接近强化学习/奖励优化的语言描述,Hallo-Live的核心并非直接进行策略梯度,而是先为学生模型生成的样本打分,再将这些奖励通过指数重加权注入蒸馏目标。从分布视角看,这等价于不再单纯拟合教师分布p_T,而是去拟合一个被奖励倾斜过的新目标分布。
直观理解,这套写法更像“奖励加权蒸馏”,而非传统强化学习中的策略梯度更新:模型并不直接对动作概率进行RL优化,而是通过奖励重新塑形学生要逼近的目标分布。
结果如何?速度几乎“断层领先”,质量接近重型教师模型
从主要结果来看,Hallo-Live最突出的优势是将文本到音视频生成首次真正推入了实时区间。

从指标结果来看:
- 速度:Hallo-Live达到20.38 FPS、0.94秒延迟,明显快于Ovi、LTX-2、JavisDiT和UniVerse-1等方法。
- 质量:在VideoAlign Overall(2.32)、Sync-C(4.72)以及人类保真度(0.90/0.98/0.92)等指标上,Hallo-Live整体接近Ovi和LTX-2,并未因提速而出现明显失真。
这组结果表明,Hallo-Live并非以极端牺牲质量来换取速度,而是在基本守住质量的前提下,将系统推至可交互的速度等级。对于数字人直播、角色扮演和虚拟主持等场景,这一点至关重要。
意义与展望
Hallo-Live的价值不仅在于提升了速度,更在于提出了一条极具代表性的技术路线:在保持流式因果生成框架的前提下,完成视频和语音的联合生成。 对数字人行业而言,它提供了一种可部署、可交互、可扩展的模型形态。
当然,论文并未宣称所有问题已彻底解决。例如,从指标来看,Hallo-Live 在同步性和语音质量方面仍未全面超越最强的离线或重型模型;同时,当前的实验平台仍需依赖两张 NVIDIA H200,距离在低成本硬件上部署还有优化余地。然而,若将“实时文本驱动的音视频数字人”视为一个长期目标,Hallo-Live 已给出了相当明确的阶段性答案。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/36258

