VoxCPM：OpenBMB 开源文本转语音系统（19k Stars）

核心信息

VoxCPM 是 OpenBMB 开发的开源文本转语音系统（19k Stars），采用无 Token 化（Tokenizer-free）的扩散自回归架构，直接在连续语音表示上建模。VoxCPM2（2B 参数）在 200 万+ 小时多语言语音数据上训练，支持 30 种语言、语音描述设计、可控声音克隆、48kHz 输出和实时流式推理。

作者：OpenBMB（ModelBest + THUHCSI）
Stars：19k
Forks：2.3k
许可证：Apache-2.0
版本：v2.0.3（2026-05-11，14 个 Release）
技术栈：Python 100%（PyTorch ≥2.5，MiniCPM-4 骨干，AudioVAE V2）

核心功能

功能	说明
30 语言支持	英/中/日/韩/法/德/西/俄/阿拉伯/泰/越等，含 8 种中文方言
语音设计	纯文本描述生成声音（性别/年龄/语气/情感/语速），无需参考音频
可控声音克隆	短音频克隆，支持风格引导（情感/语速/表达）
终极克隆	参考音频+文本的延续式克隆，保留音色/节奏/情感/风格
48kHz 输出	AudioVAE V2 非对称编解码，内建超分辨率
实时流式	RTF ~0.3（RTX 4090），~0.13（Nano-vLLM 加速）
SFT + LoRA 微调	5-10 分钟音频即可适配
四阶段管线	LocEnc → TSLM → RALM → LocDiT（Flow Matching）

性能对比

VoxCPM2 在多项评测中领先开源 TTS：

Seed-TTS-eval：WER 1.84%，SIM 75.3%，超越 CosyVoice2、F5-TTS、MaskGCT
30 语言内部评测：平均 CER/WER 1.68%，在希伯来语（2.98% vs Fish S2 15.27%）、高棉语（2.05% vs 75.15%）等低资源语言上优势显著
InstructTTSEval：中文 APS 85.2 / DSD 71.5，领先 Qwen3TTS

安装方式

pip install voxcpm

关联连接

VoxCPM — 项目实体页面
当前知识库暂无语音/Audio 相关页面，VoxCPM 填补了这一空白

美格知识库

探索

VoxCPM：OpenBMB 开源文本转语音系统（19k Stars）

核心信息

核心功能

性能对比

安装方式

关联连接

关系图谱

目录

反向链接