VoxCPM-0.5B:VoxCPM是创新的无Tokenizer文本转语音系统，采用端到端扩散自回归架构，可实现上下文感知的富有表现力的语音生成，以及仅需短音频的逼真零样本语音克隆，支持实时流式合成。【此简介由AI生成】

OpenBMB 开源社区/VoxCPM-0.5B

🎙️ VoxCPM：面向上下文感知语音生成与高保真语音克隆的无分词器TTS系统

概述

VoxCPM是一款全新的无分词器文本转语音（TTS）系统，重新定义了语音合成的真实感。它通过在连续空间中对语音进行建模，克服了离散分词的局限性，实现了两项旗舰功能：上下文感知语音生成和高保真零样本语音克隆。

与将语音转换为离散标记的主流方法不同，VoxCPM采用端到端扩散自回归架构，直接从文本生成连续语音表示。该系统基于MiniCPM-4骨干网络构建，通过层级语言建模和FSQ约束实现隐式语义-声学解耦，显著提升了表现力和生成稳定性。

🚀 核心特性

上下文感知的富有表现力的语音生成 - VoxCPM能够理解文本，推断并生成恰当的韵律，输出具有卓越表现力和自然流畅度的语音。它能根据内容自发调整说话风格，通过在180万小时大规模双语语料上的训练，产生高度贴合的语音表达。
高保真语音克隆 - 仅需一段简短的参考音频，VoxCPM即可实现精准的零样本语音克隆，不仅能捕捉说话人的音色，还能复现口音、情感基调、节奏和语速等细粒度特征，创造出忠实自然的语音复刻。
高效合成 - VoxCPM支持流式合成，在消费级NVIDIA RTX 4090 GPU上的实时因子（RTF）可低至0.17，为实时应用提供了可能。

快速开始

🔧 从 PyPI 安装

pip install voxcpm

1. 模型下载（可选）

默认情况下，首次运行脚本时模型会自动下载，您也可以提前手动下载模型。

下载VoxCPM-0.5B

from huggingface_hub import snapshot_download
snapshot_download("openbmb/VoxCPM-0.5B",local_files_only=local_files_only)

下载ZipEnhancer和SenseVoice-Small。在网页演示中，我们使用ZipEnhancer对语音提示进行增强，使用SenseVoice-Small对语音提示进行语音识别（ASR）。
```
from modelscope import snapshot_download
snapshot_download('iic/speech_zipenhancer_ans_multiloss_16k_base')
snapshot_download('iic/SenseVoiceSmall')
```

2. 基本使用方法

import soundfile as sf
from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")

wav = model.generate(
    text="VoxCPM is an innovative end-to-end TTS model from ModelBest, designed to generate highly expressive speech.",
    prompt_wav_path=None,      # optional: path to a prompt speech for voice cloning
    prompt_text=None,          # optional: reference text
    cfg_value=2.0,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
    inference_timesteps=10,   # LocDiT inference timesteps, higher for better result, lower for fast speed
    normalize=True,           # enable external TN tool
    denoise=True,             # enable external Denoise tool
    retry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)
    retry_badcase_max_times=3,  # maximum retrying times
    retry_badcase_ratio_threshold=6.0, # maximum length restriction for bad case detection (simple but effective), it could be adjusted for slow pace speech
)

sf.write("output.wav", wav, 16000)
print("saved: output.wav")

3. 命令行界面使用方法

安装完成后，入口点为 voxcpm（或使用 python -m voxcpm.cli）。

# 1) Direct synthesis (single text)
voxcpm --text "Hello VoxCPM" --output out.wav

# 2) Voice cloning (reference audio + transcript)
voxcpm --text "Hello" \
  --prompt-audio path/to/voice.wav \
  --prompt-text "reference transcript" \
  --output out.wav \
  --denoise

# 3) Batch processing (one text per line)
voxcpm --input examples/input.txt --output-dir outs
# (optional) Batch + cloning
voxcpm --input examples/input.txt --output-dir outs \
  --prompt-audio path/to/voice.wav \
  --prompt-text "reference transcript" \
  --denoise

# 4) Inference parameters (quality/speed)
voxcpm --text "..." --output out.wav \
  --cfg-value 2.0 --inference-timesteps 10 --normalize

# 5) Model loading
# Prefer local path
voxcpm --text "..." --output out.wav --model-path /path/to/VoxCPM_model_dir
# Or from Hugging Face (auto download/cache)
voxcpm --text "..." --output out.wav \
  --hf-model-id openbmb/VoxCPM-0.5B --cache-dir ~/.cache/huggingface --local-files-only

# 6) Denoiser control
voxcpm --text "..." --output out.wav \
  --no-denoiser --zipenhancer-path iic/speech_zipenhancer_ans_multiloss_16k_base

# 7) Help
voxcpm --help
python -m voxcpm.cli --help

4. 启动网页演示

运行 python app.py 即可启动用户界面，通过该界面可进行声音克隆和声音创建操作。

👩‍🍳 声音厨师指南

欢迎来到 VoxCPM 厨房！按照这份食谱，你将能“烹饪”出完美的生成语音。让我们开始吧。

🥚 第一步：准备基础食材（内容）

首先，选择你喜欢的文本输入方式：

常规文本（经典模式）

✅ 保持“文本标准化”开启。自然输入文本（例如：“Hello, world! 123”）。系统会使用 WeTextProcessing 库自动处理数字、缩写和标点符号。

音素输入（原生模式）

❌ 关闭“文本标准化”。输入音素文本，如 {HH AH0 L OW1}（英文）或 {ni3}{hao3}（中文），以实现精确的发音控制。在此模式下，VoxCPM 还支持原生理解其他复杂的非标准化文本——试试看！

🍳 第二步：选择风味配置（声音风格）

这是赋予音频独特声音的“秘制酱料”。

使用提示语音“烹饪”（遵循经典食谱）

提示语音为 VoxCPM 提供了所需的声学特征。说话人的音色、说话风格，甚至背景声音和氛围都将被复制。
- 若需干净、工作室级别的声音：
  - ✅ 启用“提示语音增强”。这就像一个噪音过滤器，能去除背景嘶声和隆隆声，为你提供纯净、清晰的声音克隆效果。

自然烹饪法（让模型即兴发挥）

如果未提供参考语音，VoxCPM 就会化身为创意厨师！凭借其基础模型 MiniCPM-4 的文本智能，它会根据文本本身推断出合适的说话风格。
- 专业提示：用任何文本挑战 VoxCPM——诗歌、歌词、戏剧独白——它可能会带来意想不到的有趣结果！

🧂 第三步：最后的调味（微调结果）

准备“上菜”了！但对于想要调整风味的大厨，这里有两种关键“调料”。

CFG 值（遵循“食谱”的紧密程度）
- 默认值：一个很好的起点。
- 声音听起来紧张或怪异？降低此值。它会让模型更放松、更具即兴发挥性，非常适合富有表现力的提示。
- 需要最大程度的清晰度和对文本的忠实度？略微提高此值，让模型更“循规蹈矩”。
推理步数（炖煮时间：质量与速度的平衡）
- 需要快速“品尝”？使用较低的步数。非常适合快速草稿和实验。
- 准备“ gourmet 大餐”？使用较高的步数。这能让模型“慢炖”更久，优化音频以获得更出色的细节和自然度。

创作愉快！🎉 从默认设置开始，然后根据你的项目需求进行调整。厨房由你掌控！

📊 性能亮点

VoxCPM 在公开的零样本 TTS 基准测试中取得了具有竞争力的结果：

Seed-TTS-eval 基准测试

模型	参数规模	是否开源	英文测试集		中文测试集		困难测试集
			词错误率/%⬇	相似度/%⬆	字错误率/%⬇	相似度/%⬆	字错误率/%⬇	相似度/%⬆
MegaTTS3	0.5B	❌	2.79	77.1	1.52	79.0	-	-
DiTAR	0.6B	❌	1.69	73.5	1.02	75.3	-	-
CosyVoice3	0.5B	❌	2.02	71.8	1.16	78.0	6.08	75.8
CosyVoice3	1.5B	❌	2.22	72.0	1.12	78.1	5.83	75.8
Seed-TTS	-	❌	2.25	76.2	1.12	79.6	7.59	77.6
MiniMax-Speech	-	❌	1.65	69.2	0.83	78.3	-	-
CosyVoice	0.3B	✅	4.29	60.9	3.63	72.3	11.75	70.9
CosyVoice2	0.5B	✅	3.09	65.9	1.38	75.7	6.83	72.4
F5-TTS	0.3B	✅	2.00	67.0	1.53	76.0	8.67	71.3
SparkTTS	0.5B	✅	3.14	57.3	1.54	66.0	-	-
FireRedTTS	0.5B	✅	3.82	46.0	1.51	63.5	17.45	62.1
FireRedTTS-2	1.5B	✅	1.95	66.5	1.14	73.6	-	-
Qwen2.5-Omni	7B	✅	2.72	63.2	1.70	75.2	7.97	74.7
OpenAudio-s1-mini	0.5B	✅	1.94	55.0	1.18	68.5	-	-
IndexTTS2	1.5B	✅	2.23	70.6	1.03	76.5	-	-
VibeVoice	1.5B	✅	3.04	68.9	1.16	74.4	-	-
HiggsAudio-v2	3B	✅	2.44	67.7	1.50	74.0	-	-
VoxCPM	0.5B	✅	1.85	72.9	0.93	77.2	8.87	73.0

CV3-eval 基准测试

模型	中文	英文	困难中文			困难英文
	字错误率/%⬇	词错误率/%⬇	字错误率/%⬇	相似度/%⬆	语音质量评分⬆	词错误率/%⬇	相似度/%⬆	语音质量评分⬆
F5-TTS	5.47	8.90	-	-	-	-	-	-
SparkTTS	5.15	11.0	-	-	-	-	-	-
GPT-SoVits	7.34	12.5	-	-	-	-	-	-
CosyVoice2	4.08	6.32	12.58	72.6	3.81	11.96	66.7	3.95
OpenAudio-s1-mini	4.00	5.54	18.1	58.2	3.77	12.4	55.7	3.89
IndexTTS2	3.58	4.45	12.8	74.6	3.65	-	-	-
HiggsAudio-v2	9.54	7.89	41.0	60.2	3.39	10.3	61.8	3.68
CosyVoice3-0.5B	3.89	5.24	14.15	78.6	3.75	9.04	75.9	3.92
CosyVoice3-1.5B	3.91	4.99	9.77	78.5	3.79	10.55	76.1	3.95
VoxCPM	3.40	4.04	12.9	66.1	3.59	7.89	64.3	3.74

⚠️ 风险与局限性

模型整体表现：尽管VoxCPM已在大规模数据集上完成训练，但仍可能生成出乎意料、带有偏见或包含瑕疵的输出内容。
语音克隆的潜在滥用风险：VoxCPM强大的零样本语音克隆功能能够生成高度逼真的合成语音。这项技术可能被滥用于制作具有欺骗性的深度伪造内容，以达到冒充、欺诈或传播虚假信息的目的。本模型的用户不得利用其创建侵犯个人权利的内容。严禁将VoxCPM用于任何非法或不道德的用途。我们强烈建议，任何使用本模型生成并公开发布的内容都应明确标记为AI生成。
当前技术局限性：尽管模型总体稳定，但偶尔可能出现不稳定情况，尤其是在处理极长或富有表现力的输入时。此外，当前版本对特定语音属性（如情感或说话风格）的直接控制能力有限。
双语模型：VoxCPM主要基于中文和英文数据进行训练。在其他语言上的性能无法保证，可能会导致生成不可预测或低质量的音频。
本模型仅用于研究和开发目的发布。我们不建议在未经严格测试和安全评估的情况下，将其用于生产环境或商业应用。请负责任地使用VoxCPM。

📄 许可证

VoxCPM模型权重和代码基于Apache-2.0许可证开源。