VoxCPM 2：开源语音大模型的新标杆

面壁智能联合清华大学人机语音交互实验室，正式开源了新一代语音大模型 VoxCPM 2。作为 VoxCPM 系列的最新迭代，该模型将参数量提升至 20 亿，并带来了多项关键升级。

VoxCPM 2 是一个功能全面的开源语音生成模型，支持 30 种全球语言及 9 种中国方言，具备高保真音色生成、音色克隆与情感控制等能力，采样率达 48kHz。

VoxCPM 2 是什么

VoxCPM 是面壁智能开源的语音大模型系列，其迭代历程如下：

VoxCPM 1（2025.09）：5 亿参数，16kHz 采样率，支持中英双语及方言，可实现 3 秒参考音频克隆。
VoxCPM 1.5（2025.12）：8 亿参数，44.1kHz 采样率，在 HuggingFace 平台获得较高关注。
VoxCPM 2（2026.04）：20 亿参数，48kHz 采样率，支持 30 种全球语言及 9 种中国方言。

从参数规模、采样率到语言支持范围，VoxCPM 2 实现了全方位的实质性升级，集成了开源语音模型的主流功能。

四大核心亮点

亮点一：广泛的语言与方言支持

VoxCPM 2 支持 30 种全球主流语言，并重点覆盖了越南语、泰语、印尼语等八种东南亚语言，对相关区域的应用开发较为友好。

同时，模型也支持包括四川话、粤语、吴语、闽南语在内的 9 种中国方言。使用时需注意，输入文本需为方言本身的表达方式，方能获得地道的合成效果。

亮点二：基于描述的音色创造

VoxCPM 2 允许用户通过自然语言描述直接创造全新的音色，突破了传统模型只能在预设音色库中选择的限制。

用户可使用如“年轻女性，温柔甜美”或“浑厚低沉的口音男声”等指令进行音色设计。该功能为游戏配音、有声内容创作等场景提供了高度灵活的声源解决方案。

亮点三：高保真音色克隆与情感复刻

模型基于扩散自回归连续表征方法，在音色克隆任务中能更好地保留原始声音的声学细节和情感特征。

用户提供 5 秒以上的参考音频，即可克隆该音色并用于合成任意文本。此外，还可通过辅助提示词（如“语速很快，清亮饱满”）对克隆声音的情感、语速进行控制。需注意，该功能目前不支持跨性别音色转换。

亮点四：48kHz 高保真音质与高效推理

VoxCPM 2 的 48kHz 采样率达到了 CD 级高保真音频标准，能捕捉更丰富的声音细节，提升生成语音的自然度与表现力。

在性能方面，在 RTX 4090 显卡上，其 RTF（实时因子）指标可达 0.13，处理速度约为实时速度的 7.7 倍。

VoxCPM 2 的技术定位与优势

在技术路线上，VoxCPM 2 采用的扩散自回归连续表征方法，在声音细节保留上优于传统的 Token-based 方法。

与同类模型相比：
* 在多语种支持上优于 Index-TTS。
* 在音色克隆的真实性与可控性上优于 Qwen3-TTS，且以单一模型实现了后者多模型组合的功能。
* 在单人音色生成与场景适配，尤其是视频配音方面，比 VibeVoice 更为深入。

作为开源模型，VoxCPM 2 提供了完整的工具链支持，包括：
* 原生 PyTorch 推理。
* LoRA 及全参数微调。
* 高吞吐部署方案 VoxCPM-NanoVLLM。
* ComfyUI 与 WebUI 扩展。
* ONNX 格式导出以支持 CPU 推理。
* Rust 语言重构版本。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：https://www.itsolotime.com/archives/29198