实时音视频生成

AI产业动态

复旦团队发布Hallo-Live：实时音视频数字人延迟低至0.94秒，推理速度提升16倍

复旦大学博士生李淳誉为本文第一作者，主要研究领域为视频生成扩散模型；共同一作为复旦大学硕士生李佳烨。通讯作者是复旦大学教授、上海创智学院全时导师朱思语。文本驱动的音视频数字人正从“能够生成”迈向“能够实时交互”。然而，这条道路充满挑战。一方面，视频与语音的联合生成本身是计算密集的高维任务；另一方面，若为追求速度而激进加速，嘴型同步、语音自然度…

5小时前
23000