VoxCPM 2:开源语音大模型的新标杆
面壁智能联合清华大学人机语音交互实验室,正式开源了新一代语音大模型 VoxCPM 2。作为 VoxCPM 系列的最新迭代,该模型将参数量提升至 20 亿,并带来了多项关键升级。

VoxCPM 2 是一个功能全面的开源语音生成模型,支持 30 种全球语言及 9 种中国方言,具备高保真音色生成、音色克隆与情感控制等能力,采样率达 48kHz。
VoxCPM 2 是什么

VoxCPM 是面壁智能开源的语音大模型系列,其迭代历程如下:
- VoxCPM 1(2025.09):5 亿参数,16kHz 采样率,支持中英双语及方言,可实现 3 秒参考音频克隆。
- VoxCPM 1.5(2025.12):8 亿参数,44.1kHz 采样率,在 HuggingFace 平台获得较高关注。
- VoxCPM 2(2026.04):20 亿参数,48kHz 采样率,支持 30 种全球语言及 9 种中国方言。
从参数规模、采样率到语言支持范围,VoxCPM 2 实现了全方位的实质性升级,集成了开源语音模型的主流功能。
四大核心亮点
亮点一:广泛的语言与方言支持
VoxCPM 2 支持 30 种全球主流语言,并重点覆盖了越南语、泰语、印尼语等八种东南亚语言,对相关区域的应用开发较为友好。

同时,模型也支持包括四川话、粤语、吴语、闽南语在内的 9 种中国方言。使用时需注意,输入文本需为方言本身的表达方式,方能获得地道的合成效果。

亮点二:基于描述的音色创造
VoxCPM 2 允许用户通过自然语言描述直接创造全新的音色,突破了传统模型只能在预设音色库中选择的限制。

用户可使用如“年轻女性,温柔甜美”或“浑厚低沉的口音男声”等指令进行音色设计。该功能为游戏配音、有声内容创作等场景提供了高度灵活的声源解决方案。
亮点三:高保真音色克隆与情感复刻
模型基于扩散自回归连续表征方法,在音色克隆任务中能更好地保留原始声音的声学细节和情感特征。
用户提供 5 秒以上的参考音频,即可克隆该音色并用于合成任意文本。此外,还可通过辅助提示词(如“语速很快,清亮饱满”)对克隆声音的情感、语速进行控制。需注意,该功能目前不支持跨性别音色转换。
亮点四:48kHz 高保真音质与高效推理
VoxCPM 2 的 48kHz 采样率达到了 CD 级高保真音频标准,能捕捉更丰富的声音细节,提升生成语音的自然度与表现力。
在性能方面,在 RTX 4090 显卡上,其 RTF(实时因子)指标可达 0.13,处理速度约为实时速度的 7.7 倍。
VoxCPM 2 的技术定位与优势
在技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法,在声音细节保留上优于传统的 Token-based 方法。
与同类模型相比:
* 在多语种支持上优于 Index-TTS。
* 在音色克隆的真实性与可控性上优于 Qwen3-TTS,且以单一模型实现了后者多模型组合的功能。
* 在单人音色生成与场景适配,尤其是视频配音方面,比 VibeVoice 更为深入。

作为开源模型,VoxCPM 2 提供了完整的工具链支持,包括:
* 原生 PyTorch 推理。
* LoRA 及全参数微调。
* 高吞吐部署方案 VoxCPM-NanoVLLM。
* ComfyUI 与 WebUI 扩展。
* ONNX 格式导出以支持 CPU 推理。
* Rust 语言重构版本。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29198

