定义

VoxCPM 是 OpenBMB 开发的开源文本转语音系统(19k Stars),采用无 Token 化的扩散自回归架构直接生成连续语音表示。VoxCPM2(2B 参数量)在 200 万+ 小时多语言语音数据上训练,支持 30 种语言,提供语音设计、声音克隆、48kHz 高质量输出和实时流式推理,是知识库首个 AI 语音合成领域项目。

核心特性

  • 无 Token 化架构:直接在连续语音表示上建模,跳过离散音频 Token 的量化损失
  • 四阶段生成管线:LocEnc(位置/文本编码)→ TSLM(文本到语音语言模型)→ RALM(参考感知语言模型)→ LocDiT(位置感知扩散 Transformer)
  • 语音描述设计:文本描述即可生成声音,如 “(A young woman, gentle and sweet voice)”
  • 多模式克隆:可控克隆(参考音频+文本风格)和终极克隆(延续式最高保真)
  • 30 语言 + 8 种中文方言:覆盖主流语言和低资源语言
  • 生产部署:Nano-vLLM / vLLM-Omni 加速,OpenAI 兼容 API,Docker 支持
  • 社区生态:ComfyUI、ONNX、Rust、Apple Neural Engine、GGML 等移植

关联连接