核心信息

VoxCPM 是 OpenBMB 开发的开源文本转语音系统(19k Stars),采用无 Token 化(Tokenizer-free)的扩散自回归架构,直接在连续语音表示上建模。VoxCPM2(2B 参数)在 200 万+ 小时多语言语音数据上训练,支持 30 种语言、语音描述设计、可控声音克隆、48kHz 输出和实时流式推理。

  • 作者:OpenBMB(ModelBest + THUHCSI)
  • Stars:19k
  • Forks:2.3k
  • 许可证:Apache-2.0
  • 版本:v2.0.3(2026-05-11,14 个 Release)
  • 技术栈:Python 100%(PyTorch ≥2.5,MiniCPM-4 骨干,AudioVAE V2)

核心功能

功能说明
30 语言支持英/中/日/韩/法/德/西/俄/阿拉伯/泰/越等,含 8 种中文方言
语音设计纯文本描述生成声音(性别/年龄/语气/情感/语速),无需参考音频
可控声音克隆短音频克隆,支持风格引导(情感/语速/表达)
终极克隆参考音频+文本的延续式克隆,保留音色/节奏/情感/风格
48kHz 输出AudioVAE V2 非对称编解码,内建超分辨率
实时流式RTF ~0.3(RTX 4090),~0.13(Nano-vLLM 加速)
SFT + LoRA 微调5-10 分钟音频即可适配
四阶段管线LocEnc → TSLM → RALM → LocDiT(Flow Matching)

性能对比

VoxCPM2 在多项评测中领先开源 TTS:

  • Seed-TTS-eval:WER 1.84%,SIM 75.3%,超越 CosyVoice2、F5-TTS、MaskGCT
  • 30 语言内部评测:平均 CER/WER 1.68%,在希伯来语(2.98% vs Fish S2 15.27%)、高棉语(2.05% vs 75.15%)等低资源语言上优势显著
  • InstructTTSEval:中文 APS 85.2 / DSD 71.5,领先 Qwen3TTS

安装方式

pip install voxcpm

关联连接

  • VoxCPM — 项目实体页面
  • 当前知识库暂无语音/Audio 相关页面,VoxCPM 填补了这一空白