VoxCPM 2:开源语音大模型的新标杆

面壁智能联合清华大学人机语音交互实验室,正式开源了新一代语音大模型 VoxCPM 2。作为 VoxCPM 系列的最新迭代,该模型将参数量提升至 20 亿,并带来了多项关键升级。

VoxCPM 2 是一个功能全面的开源语音生成模型,支持 30 种全球语言及 9 种中国方言,具备高保真音色生成、音色克隆与情感控制等能力,采样率达 48kHz。

VoxCPM 2 是什么

VoxCPM 是面壁智能开源的语音大模型系列,其迭代历程如下:

  • VoxCPM 1(2025.09):5 亿参数,16kHz 采样率,支持中英双语及方言,可实现 3 秒参考音频克隆。
  • VoxCPM 1.5(2025.12):8 亿参数,44.1kHz 采样率,在 HuggingFace 平台获得较高关注。
  • VoxCPM 2(2026.04):20 亿参数,48kHz 采样率,支持 30 种全球语言及 9 种中国方言。

从参数规模、采样率到语言支持范围,VoxCPM 2 实现了全方位的实质性升级,集成了开源语音模型的主流功能。

四大核心亮点

亮点一:广泛的语言与方言支持

VoxCPM 2 支持 30 种全球主流语言,并重点覆盖了越南语、泰语、印尼语等八种东南亚语言,对相关区域的应用开发较为友好。

同时,模型也支持包括四川话、粤语、吴语、闽南语在内的 9 种中国方言。使用时需注意,输入文本需为方言本身的表达方式,方能获得地道的合成效果。

亮点二:基于描述的音色创造

VoxCPM 2 允许用户通过自然语言描述直接创造全新的音色,突破了传统模型只能在预设音色库中选择的限制。

用户可使用如“年轻女性,温柔甜美”或“浑厚低沉的口音男声”等指令进行音色设计。该功能为游戏配音、有声内容创作等场景提供了高度灵活的声源解决方案。

亮点三:高保真音色克隆与情感复刻

模型基于扩散自回归连续表征方法,在音色克隆任务中能更好地保留原始声音的声学细节和情感特征。

用户提供 5 秒以上的参考音频,即可克隆该音色并用于合成任意文本。此外,还可通过辅助提示词(如“语速很快,清亮饱满”)对克隆声音的情感、语速进行控制。需注意,该功能目前不支持跨性别音色转换。

亮点四:48kHz 高保真音质与高效推理

VoxCPM 2 的 48kHz 采样率达到了 CD 级高保真音频标准,能捕捉更丰富的声音细节,提升生成语音的自然度与表现力。

在性能方面,在 RTX 4090 显卡上,其 RTF(实时因子)指标可达 0.13,处理速度约为实时速度的 7.7 倍。

VoxCPM 2 的技术定位与优势

在技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法,在声音细节保留上优于传统的 Token-based 方法。

与同类模型相比:
* 在多语种支持上优于 Index-TTS
* 在音色克隆的真实性与可控性上优于 Qwen3-TTS,且以单一模型实现了后者多模型组合的功能。
* 在单人音色生成与场景适配,尤其是视频配音方面,比 VibeVoice 更为深入。

作为开源模型,VoxCPM 2 提供了完整的工具链支持,包括:
* 原生 PyTorch 推理。
* LoRA 及全参数微调。
* 高吞吐部署方案 VoxCPM-NanoVLLM。
* ComfyUI 与 WebUI 扩展。
* ONNX 格式导出以支持 CPU 推理。
* Rust 语言重构版本。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29198

(0)
上一篇 2026年4月8日 下午2:00
下一篇 2026年4月8日 下午4:04

相关推荐

  • 复旦团队发布Hallo-Live:实时音视频数字人延迟低至0.94秒,推理速度提升16倍

      复旦大学博士生李淳誉为本文第一作者,主要研究领域为视频生成扩散模型;共同一作为复旦大学硕士生李佳烨。通讯作者是复旦大学教授、上海创智学院全时导师朱思语。 文本驱动的音视频数字人正从“能够生成”迈向“能够实时交互”。然而,这条道路充满挑战。一方面,视频与语音的联合生成本身是计算密集的高维任务;另一方面,若为追求速度而激进加速,嘴型同步、语音自然度…

    3小时前
    1800
  • 跨学科突破:神经科学与AI融合,打造类人记忆Agent系统

    跨学科突破:神经科学如何让 Agent 拥有「人类式」记忆? 你是否设想过,AI Agent 能像人类一样,通过积累经验实现自我成长?如今,这一愿景正加速走向现实。然而,当前的研究要么局限于AI技术本身,要么对人脑记忆机制的借鉴流于表面,两个学科之间始终缺乏深刻的交叉与碰撞。 近期,来自哈尔滨工业大学、鹏城实验室、新加坡国立大学、复旦大学和北京大学的研究团队…

    2026年1月10日
    73100
  • 从5美元切片到虚拟免疫图谱:GigaTIME如何用AI重构癌症研究的尺度与边界

    在癌症免疫研究领域,成本与样本量长期构成难以逾越的双重壁垒。传统multiplex immunofluorescence(mIF)技术虽能提供高维免疫信息,但每张切片动辄数千美元的成本、漫长的处理周期以及有限的样本覆盖,使其始终困于“昂贵稀缺”的困境。医院日常产生的H&E染色切片虽单价仅5-10美元,却长期被视作基础诊断工具,其与高维免疫图谱的潜在关…

    2025年12月13日
    45900
  • 生成涌现:从Gemini 3.0到蚂蚁灵光,AI如何重塑应用生态与创作范式

    2025年末,AI领域迎来一场深刻的范式变革。谷歌Gemini 3.0的预热不仅引爆了技术圈的期待,更揭示了一个关键趋势:AI正从单一模态的「线性输出」迈向系统级的「生成涌现」。这一转变的核心在于,AI不再仅仅是内容生成工具,而是能够自主构建复杂应用、界面乃至交互系统的创造性引擎。 当前,大模型的发展已进入新阶段。OpenAI GPT-5.1的迭代虽带来改进…

    2025年11月18日
    43700
  • AI重构游戏开发范式:从引擎集成到全生命周期赋能的技术演进

    在上海举办的2025 Unity开发者大会上,”AI+游戏”的融合趋势得到了系统性展示,标志着游戏产业正经历从辅助工具到核心引擎的技术范式转移。这一变革不仅体现在开发效率的量化提升,更深入到创意生成、资产制作、运维管理等全链条环节,预示着游戏行业将迎来新一轮生产力革命。 从技术演进路径看,AI在游戏领域的应用已从早期的概念验证阶段,进…

    2025年11月1日
    57000