核心信息
VoxCPM 是 OpenBMB 开发的开源文本转语音系统(19k Stars),采用无 Token 化(Tokenizer-free)的扩散自回归架构,直接在连续语音表示上建模。VoxCPM2(2B 参数)在 200 万+ 小时多语言语音数据上训练,支持 30 种语言、语音描述设计、可控声音克隆、48kHz 输出和实时流式推理。
- 作者:OpenBMB(ModelBest + THUHCSI)
- Stars:19k
- Forks:2.3k
- 许可证:Apache-2.0
- 版本:v2.0.3(2026-05-11,14 个 Release)
- 技术栈:Python 100%(PyTorch ≥2.5,MiniCPM-4 骨干,AudioVAE V2)
核心功能
| 功能 | 说明 |
|---|---|
| 30 语言支持 | 英/中/日/韩/法/德/西/俄/阿拉伯/泰/越等,含 8 种中文方言 |
| 语音设计 | 纯文本描述生成声音(性别/年龄/语气/情感/语速),无需参考音频 |
| 可控声音克隆 | 短音频克隆,支持风格引导(情感/语速/表达) |
| 终极克隆 | 参考音频+文本的延续式克隆,保留音色/节奏/情感/风格 |
| 48kHz 输出 | AudioVAE V2 非对称编解码,内建超分辨率 |
| 实时流式 | RTF ~0.3(RTX 4090),~0.13(Nano-vLLM 加速) |
| SFT + LoRA 微调 | 5-10 分钟音频即可适配 |
| 四阶段管线 | LocEnc → TSLM → RALM → LocDiT(Flow Matching) |
性能对比
VoxCPM2 在多项评测中领先开源 TTS:
- Seed-TTS-eval:WER 1.84%,SIM 75.3%,超越 CosyVoice2、F5-TTS、MaskGCT
- 30 语言内部评测:平均 CER/WER 1.68%,在希伯来语(2.98% vs Fish S2 15.27%)、高棉语(2.05% vs 75.15%)等低资源语言上优势显著
- InstructTTSEval:中文 APS 85.2 / DSD 71.5,领先 Qwen3TTS
安装方式
pip install voxcpm关联连接
- VoxCPM — 项目实体页面
- 当前知识库暂无语音/Audio 相关页面,VoxCPM 填补了这一空白