实时音视频生成

  • 复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

      复旦大学博士生李淳誉为本文第一作者,主要研究领域为视频生成扩散模型;共同一作为复旦大学硕士生李佳烨。通讯作者是复旦大学教授、上海创智学院全时导师朱思语。 文本驱动的音视频数字人正从“能够生成”迈向“能够实时交互”。然而,这条道路充满挑战。一方面,视频与语音的联合生成本身是计算密集的高维任务;另一方面,若为追求速度而激进加速,嘴型同步、语音自然度…

    5小时前
    2300