VoxCPM 2:开源语音大模型的新标杆

面壁智能联合清华大学人机语音交互实验室,正式开源了新一代语音大模型 VoxCPM 2。作为 VoxCPM 系列的最新迭代,该模型将参数量提升至 20 亿,并带来了多项关键升级。

VoxCPM 2 是一个功能全面的开源语音生成模型,支持 30 种全球语言及 9 种中国方言,具备高保真音色生成、音色克隆与情感控制等能力,采样率达 48kHz。

VoxCPM 2 是什么

VoxCPM 是面壁智能开源的语音大模型系列,其迭代历程如下:

  • VoxCPM 1(2025.09):5 亿参数,16kHz 采样率,支持中英双语及方言,可实现 3 秒参考音频克隆。
  • VoxCPM 1.5(2025.12):8 亿参数,44.1kHz 采样率,在 HuggingFace 平台获得较高关注。
  • VoxCPM 2(2026.04):20 亿参数,48kHz 采样率,支持 30 种全球语言及 9 种中国方言。

从参数规模、采样率到语言支持范围,VoxCPM 2 实现了全方位的实质性升级,集成了开源语音模型的主流功能。

四大核心亮点

亮点一:广泛的语言与方言支持

VoxCPM 2 支持 30 种全球主流语言,并重点覆盖了越南语、泰语、印尼语等八种东南亚语言,对相关区域的应用开发较为友好。

同时,模型也支持包括四川话、粤语、吴语、闽南语在内的 9 种中国方言。使用时需注意,输入文本需为方言本身的表达方式,方能获得地道的合成效果。

亮点二:基于描述的音色创造

VoxCPM 2 允许用户通过自然语言描述直接创造全新的音色,突破了传统模型只能在预设音色库中选择的限制。

用户可使用如“年轻女性,温柔甜美”或“浑厚低沉的口音男声”等指令进行音色设计。该功能为游戏配音、有声内容创作等场景提供了高度灵活的声源解决方案。

亮点三:高保真音色克隆与情感复刻

模型基于扩散自回归连续表征方法,在音色克隆任务中能更好地保留原始声音的声学细节和情感特征。

用户提供 5 秒以上的参考音频,即可克隆该音色并用于合成任意文本。此外,还可通过辅助提示词(如“语速很快,清亮饱满”)对克隆声音的情感、语速进行控制。需注意,该功能目前不支持跨性别音色转换。

亮点四:48kHz 高保真音质与高效推理

VoxCPM 2 的 48kHz 采样率达到了 CD 级高保真音频标准,能捕捉更丰富的声音细节,提升生成语音的自然度与表现力。

在性能方面,在 RTX 4090 显卡上,其 RTF(实时因子)指标可达 0.13,处理速度约为实时速度的 7.7 倍。

VoxCPM 2 的技术定位与优势

在技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法,在声音细节保留上优于传统的 Token-based 方法。

与同类模型相比:
* 在多语种支持上优于 Index-TTS
* 在音色克隆的真实性与可控性上优于 Qwen3-TTS,且以单一模型实现了后者多模型组合的功能。
* 在单人音色生成与场景适配,尤其是视频配音方面,比 VibeVoice 更为深入。

作为开源模型,VoxCPM 2 提供了完整的工具链支持,包括:
* 原生 PyTorch 推理。
* LoRA 及全参数微调。
* 高吞吐部署方案 VoxCPM-NanoVLLM。
* ComfyUI 与 WebUI 扩展。
* ONNX 格式导出以支持 CPU 推理。
* Rust 语言重构版本。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/29198

(0)
上一篇 2天前
下一篇 2天前

相关推荐

  • DeepSeek深夜上线快速/专家模式,V4模型真的要来了?

    DeepSeek深夜上线快速与专家模式,V4模型引猜测 DeepSeek网页端近期进行了一次重要更新,推出了“快速模式”和“专家模式”两项新功能。此外,一项带有图片图标的“视觉模型”功能也已开启灰度测试。 尽管官方未对两种新模式背后的具体模型进行说明,但用户通过测试发现了一些线索。 在交互中,模型自身透露了其版本信息,引发了关于其是否为V4模型的广泛讨论。 …

    2天前
    16400
  • INTELLECT-3:开源RL技术栈引领大规模强化学习新范式

    近日,Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有106B参数的混合专家(Mixture-of-Experts)架构模型,基于其自研的强化学习技术栈进行训练。该模型在数学、代码、科学和推理等多个基准测试中取得了同规模模型中的最佳表现,甚至超越了部分参数更大的前沿模型。更重要的是,Prime Intellect将完整的训练流…

    2025年12月10日
    29100
  • Claude Opus 4.6实测:准确率跃升5.6%,成本骤降34%,自适应思考机制显威

    Anthropic发布了Claude Opus 4.6新版本,官方定位为“最智能的模型”,主打复杂智能体任务和长时程工作。相比此前的Claude Opus 4.5版本,新版本在架构上进行了多项升级,包括首次在Opus级别支持100万token上下文窗口、引入自适应思考(adaptive thinking)机制等。 我们对这两个版本进行了全面的对比评测,测试其…

    2026年2月10日
    75300
  • Sora APP用户留存率断崖式下跌:从现象级爆款到增长困境的深度剖析

    近日,a16z合伙人Olivia Moore分享的一组数据揭示了OpenAI旗下视频生成应用Sora APP面临的严峻挑战。数据显示,这款在发布初期以爆发式增长著称的应用,用户留存率呈现断崖式下跌:首日留存率为10%,第七日降至2%,第三十日仅剩1%,而第六十日已趋近于0%。尽管Sora APP上线尚不足60天,这一数据仍从特定维度反映了其用户粘性的严重不足…

    2025年12月4日
    38800
  • 马斯克xAI获200亿美元融资,估值一年翻四倍,Grok 5训练中剑指AGI

    马斯克xAI获200亿美元融资,估值一年翻四倍,Grok 5训练中剑指AGI 马斯克旗下的人工智能公司xAI近期完成了新一轮巨额融资。本轮E轮融资规模高达200亿美元(约合人民币1397亿元),远超此前市场传闻的150亿美元。值得注意的是,英伟达和思科均以“战略投资者”的身份参与了本轮融资。 关于英伟达的投资,还有一则背景故事。早在2025年10月xAI被曝…

    2026年1月7日
    32600