VoxCPM 2:开源语音大模型的新标杆

面壁智能联合清华大学人机语音交互实验室,正式开源了新一代语音大模型 VoxCPM 2。作为 VoxCPM 系列的最新迭代,该模型将参数量提升至 20 亿,并带来了多项关键升级。

VoxCPM 2 是一个功能全面的开源语音生成模型,支持 30 种全球语言及 9 种中国方言,具备高保真音色生成、音色克隆与情感控制等能力,采样率达 48kHz。

VoxCPM 2 是什么

VoxCPM 是面壁智能开源的语音大模型系列,其迭代历程如下:

  • VoxCPM 1(2025.09):5 亿参数,16kHz 采样率,支持中英双语及方言,可实现 3 秒参考音频克隆。
  • VoxCPM 1.5(2025.12):8 亿参数,44.1kHz 采样率,在 HuggingFace 平台获得较高关注。
  • VoxCPM 2(2026.04):20 亿参数,48kHz 采样率,支持 30 种全球语言及 9 种中国方言。

从参数规模、采样率到语言支持范围,VoxCPM 2 实现了全方位的实质性升级,集成了开源语音模型的主流功能。

四大核心亮点

亮点一:广泛的语言与方言支持

VoxCPM 2 支持 30 种全球主流语言,并重点覆盖了越南语、泰语、印尼语等八种东南亚语言,对相关区域的应用开发较为友好。

同时,模型也支持包括四川话、粤语、吴语、闽南语在内的 9 种中国方言。使用时需注意,输入文本需为方言本身的表达方式,方能获得地道的合成效果。

亮点二:基于描述的音色创造

VoxCPM 2 允许用户通过自然语言描述直接创造全新的音色,突破了传统模型只能在预设音色库中选择的限制。

用户可使用如“年轻女性,温柔甜美”或“浑厚低沉的口音男声”等指令进行音色设计。该功能为游戏配音、有声内容创作等场景提供了高度灵活的声源解决方案。

亮点三:高保真音色克隆与情感复刻

模型基于扩散自回归连续表征方法,在音色克隆任务中能更好地保留原始声音的声学细节和情感特征。

用户提供 5 秒以上的参考音频,即可克隆该音色并用于合成任意文本。此外,还可通过辅助提示词(如“语速很快,清亮饱满”)对克隆声音的情感、语速进行控制。需注意,该功能目前不支持跨性别音色转换。

亮点四:48kHz 高保真音质与高效推理

VoxCPM 2 的 48kHz 采样率达到了 CD 级高保真音频标准,能捕捉更丰富的声音细节,提升生成语音的自然度与表现力。

在性能方面,在 RTX 4090 显卡上,其 RTF(实时因子)指标可达 0.13,处理速度约为实时速度的 7.7 倍。

VoxCPM 2 的技术定位与优势

在技术路线上,VoxCPM 2 采用的扩散自回归连续表征方法,在声音细节保留上优于传统的 Token-based 方法。

与同类模型相比:
* 在多语种支持上优于 Index-TTS
* 在音色克隆的真实性与可控性上优于 Qwen3-TTS,且以单一模型实现了后者多模型组合的功能。
* 在单人音色生成与场景适配,尤其是视频配音方面,比 VibeVoice 更为深入。

作为开源模型,VoxCPM 2 提供了完整的工具链支持,包括:
* 原生 PyTorch 推理。
* LoRA 及全参数微调。
* 高吞吐部署方案 VoxCPM-NanoVLLM。
* ComfyUI 与 WebUI 扩展。
* ONNX 格式导出以支持 CPU 推理。
* Rust 语言重构版本。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/29198

(0)
上一篇 13小时前
下一篇 11小时前

相关推荐

  • Self-Distillation:大模型持续学习的破局之道与2026三大突破

    2026年伊始,大模型领域的研究者们似乎达成了一种默契。翻开近期arXiv上备受关注的论文,一个词汇频繁出现:Self-Distillation(自蒸馏)。 近年来,基础模型在语言、视觉、机器人等领域取得了显著成功,为AI应用提供了强大支持。然而,在模型真正落地与长期使用的过程中,研究者们逐渐发现一个关键瓶颈:如何让模型在持续吸收新知识的同时,不遗忘已有的核…

    2026年2月10日
    45500
  • Runway发布GWM-1世界模型全家桶:从环境模拟到机器人操作的全栈式AI解决方案

    近日,知名AI视频生成公司Runway正式发布了其首个通用世界模型GWM-1,标志着该公司在AI内容生成领域迈出了从单一视频生成向复杂世界模拟的关键一步。这一发布不仅展示了Runway在生成式AI技术上的深厚积累,更预示着AI技术正在从内容创作工具向物理世界模拟平台演进。 GWM-1基于Runway最新的视频生成模型Gen-4.5构建,但采用了完全不同的技术…

    2025年12月13日
    27500
  • Cloudflare全球宕机事件深度剖析:AI时代数字基建的脆弱性与系统性风险

    2025年11月18日,全球互联网经历了一场前所未有的系统性崩溃。Cloudflare作为支撑全球20%网站流量的基础设施服务商,因一次常规维护操作引发连锁反应,导致包括ChatGPT、X(原Twitter)、亚马逊、Zoom等在内的众多AI巨头和互联网服务陷入长达数小时的瘫痪。这起事件不仅暴露了现代数字基础设施的脆弱性,更揭示了AI时代技术演进与系统稳定性…

    2025年11月19日
    22000
  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    26800
  • 欧洲AI新锐Mistral AI再发力:Devstral 2代码模型与Vibe CLI工具深度解析

    在人工智能领域竞争日益激烈的背景下,欧洲的Mistral AI近期以惊人的发布频率再次成为行业焦点。继一周前发布Mistral 3系列模型后,该公司又迅速推出了下一代代码模型系列Devstral 2以及原生命令行工具Mistral Vibe CLI。这一系列动作不仅展示了欧洲在AI前沿技术研发上的加速态势,也为全球开发者社区带来了新的技术选择。 Devstr…

    2025年12月10日
    28100