OpenBMB 开源社区/VoxCPM-0.5B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

🎙️ VoxCPM:面向上下文感知语音生成与高保真语音克隆的无分词器TTS系统

项目页面 Hugging Face 在线演示 样例页面

VoxCPM Logo

概述

VoxCPM是一款全新的无分词器文本转语音(TTS)系统,重新定义了语音合成的真实感。它通过在连续空间中对语音进行建模,克服了离散分词的局限性,实现了两项旗舰功能:上下文感知语音生成和高保真零样本语音克隆。

与将语音转换为离散标记的主流方法不同,VoxCPM采用端到端扩散自回归架构,直接从文本生成连续语音表示。该系统基于MiniCPM-4骨干网络构建,通过层级语言建模和FSQ约束实现隐式语义-声学解耦,显著提升了表现力和生成稳定性。

VoxCPM Model Architecture

🚀 核心特性

  • 上下文感知的富有表现力的语音生成 - VoxCPM能够理解文本,推断并生成恰当的韵律,输出具有卓越表现力和自然流畅度的语音。它能根据内容自发调整说话风格,通过在180万小时大规模双语语料上的训练,产生高度贴合的语音表达。
  • 高保真语音克隆 - 仅需一段简短的参考音频,VoxCPM即可实现精准的零样本语音克隆,不仅能捕捉说话人的音色,还能复现口音、情感基调、节奏和语速等细粒度特征,创造出忠实自然的语音复刻。
  • 高效合成 - VoxCPM支持流式合成,在消费级NVIDIA RTX 4090 GPU上的实时因子(RTF)可低至0.17,为实时应用提供了可能。

快速开始

🔧 从 PyPI 安装

pip install voxcpm

1. 模型下载(可选)

默认情况下,首次运行脚本时模型会自动下载,您也可以提前手动下载模型。

  • 下载VoxCPM-0.5B
    from huggingface_hub import snapshot_download
    snapshot_download("openbmb/VoxCPM-0.5B",local_files_only=local_files_only)
  • 下载ZipEnhancer和SenseVoice-Small。在网页演示中,我们使用ZipEnhancer对语音提示进行增强,使用SenseVoice-Small对语音提示进行语音识别(ASR)。
    from modelscope import snapshot_download
    snapshot_download('iic/speech_zipenhancer_ans_multiloss_16k_base')
    snapshot_download('iic/SenseVoiceSmall')

2. 基本使用方法

import soundfile as sf
from voxcpm import VoxCPM

model = VoxCPM.from_pretrained("openbmb/VoxCPM-0.5B")

wav = model.generate(
    text="VoxCPM is an innovative end-to-end TTS model from ModelBest, designed to generate highly expressive speech.",
    prompt_wav_path=None,      # optional: path to a prompt speech for voice cloning
    prompt_text=None,          # optional: reference text
    cfg_value=2.0,             # LM guidance on LocDiT, higher for better adherence to the prompt, but maybe worse
    inference_timesteps=10,   # LocDiT inference timesteps, higher for better result, lower for fast speed
    normalize=True,           # enable external TN tool
    denoise=True,             # enable external Denoise tool
    retry_badcase=True,        # enable retrying mode for some bad cases (unstoppable)
    retry_badcase_max_times=3,  # maximum retrying times
    retry_badcase_ratio_threshold=6.0, # maximum length restriction for bad case detection (simple but effective), it could be adjusted for slow pace speech
)

sf.write("output.wav", wav, 16000)
print("saved: output.wav")

3. 命令行界面使用方法

安装完成后,入口点为 voxcpm(或使用 python -m voxcpm.cli)。

# 1) Direct synthesis (single text)
voxcpm --text "Hello VoxCPM" --output out.wav

# 2) Voice cloning (reference audio + transcript)
voxcpm --text "Hello" \
  --prompt-audio path/to/voice.wav \
  --prompt-text "reference transcript" \
  --output out.wav \
  --denoise

# 3) Batch processing (one text per line)
voxcpm --input examples/input.txt --output-dir outs
# (optional) Batch + cloning
voxcpm --input examples/input.txt --output-dir outs \
  --prompt-audio path/to/voice.wav \
  --prompt-text "reference transcript" \
  --denoise

# 4) Inference parameters (quality/speed)
voxcpm --text "..." --output out.wav \
  --cfg-value 2.0 --inference-timesteps 10 --normalize

# 5) Model loading
# Prefer local path
voxcpm --text "..." --output out.wav --model-path /path/to/VoxCPM_model_dir
# Or from Hugging Face (auto download/cache)
voxcpm --text "..." --output out.wav \
  --hf-model-id openbmb/VoxCPM-0.5B --cache-dir ~/.cache/huggingface --local-files-only

# 6) Denoiser control
voxcpm --text "..." --output out.wav \
  --no-denoiser --zipenhancer-path iic/speech_zipenhancer_ans_multiloss_16k_base

# 7) Help
voxcpm --help
python -m voxcpm.cli --help

4. 启动网页演示

运行 python app.py 即可启动用户界面,通过该界面可进行声音克隆和声音创建操作。

👩‍🍳 声音厨师指南

欢迎来到 VoxCPM 厨房!按照这份食谱,你将能“烹饪”出完美的生成语音。让我们开始吧。


🥚 第一步:准备基础食材(内容)

首先,选择你喜欢的文本输入方式:

  1. 常规文本(经典模式)
  • ✅ 保持“文本标准化”开启。自然输入文本(例如:“Hello, world! 123”)。系统会使用 WeTextProcessing 库自动处理数字、缩写和标点符号。
  1. 音素输入(原生模式)
  • ❌ 关闭“文本标准化”。输入音素文本,如 {HH AH0 L OW1}(英文)或 {ni3}{hao3}(中文),以实现精确的发音控制。在此模式下,VoxCPM 还支持原生理解其他复杂的非标准化文本——试试看!

🍳 第二步:选择风味配置(声音风格)

这是赋予音频独特声音的“秘制酱料”。

  1. 使用提示语音“烹饪”(遵循经典食谱)
  • 提示语音为 VoxCPM 提供了所需的声学特征。说话人的音色、说话风格,甚至背景声音和氛围都将被复制。
    • 若需干净、工作室级别的声音:
      • ✅ 启用“提示语音增强”。这就像一个噪音过滤器,能去除背景嘶声和隆隆声,为你提供纯净、清晰的声音克隆效果。
  1. 自然烹饪法(让模型即兴发挥)
  • 如果未提供参考语音,VoxCPM 就会化身为创意厨师!凭借其基础模型 MiniCPM-4 的文本智能,它会根据文本本身推断出合适的说话风格。
    • 专业提示:用任何文本挑战 VoxCPM——诗歌、歌词、戏剧独白——它可能会带来意想不到的有趣结果!

🧂 第三步:最后的调味(微调结果)

准备“上菜”了!但对于想要调整风味的大厨,这里有两种关键“调料”。

  • CFG 值(遵循“食谱”的紧密程度)
    • 默认值:一个很好的起点。
    • 声音听起来紧张或怪异?降低此值。它会让模型更放松、更具即兴发挥性,非常适合富有表现力的提示。
    • 需要最大程度的清晰度和对文本的忠实度?略微提高此值,让模型更“循规蹈矩”。
  • 推理步数(炖煮时间:质量与速度的平衡)
    • 需要快速“品尝”?使用较低的步数。非常适合快速草稿和实验。
    • 准备“ gourmet 大餐”?使用较高的步数。这能让模型“慢炖”更久,优化音频以获得更出色的细节和自然度。

创作愉快!🎉 从默认设置开始,然后根据你的项目需求进行调整。厨房由你掌控!


📊 性能亮点

VoxCPM 在公开的零样本 TTS 基准测试中取得了具有竞争力的结果:

Seed-TTS-eval 基准测试

模型参数规模是否开源英文测试集中文测试集困难测试集
词错误率/%⬇相似度/%⬆字错误率/%⬇相似度/%⬆字错误率/%⬇相似度/%⬆
MegaTTS30.5B❌2.7977.11.5279.0--
DiTAR0.6B❌1.6973.51.0275.3--
CosyVoice30.5B❌2.0271.81.1678.06.0875.8
CosyVoice31.5B❌2.2272.01.1278.15.8375.8
Seed-TTS-❌2.2576.21.1279.67.5977.6
MiniMax-Speech-❌1.6569.20.8378.3--
CosyVoice0.3B✅4.2960.93.6372.311.7570.9
CosyVoice20.5B✅3.0965.91.3875.76.8372.4
F5-TTS0.3B✅2.0067.01.5376.08.6771.3
SparkTTS0.5B✅3.1457.31.5466.0--
FireRedTTS0.5B✅3.8246.01.5163.517.4562.1
FireRedTTS-21.5B✅1.9566.51.1473.6--
Qwen2.5-Omni7B✅2.7263.21.7075.27.9774.7
OpenAudio-s1-mini0.5B✅1.9455.01.1868.5--
IndexTTS21.5B✅2.2370.61.0376.5--
VibeVoice1.5B✅3.0468.91.1674.4--
HiggsAudio-v23B✅2.4467.71.5074.0--
VoxCPM0.5B✅1.8572.90.9377.28.8773.0

CV3-eval 基准测试

模型中文英文困难中文困难英文
字错误率/%⬇词错误率/%⬇字错误率/%⬇相似度/%⬆语音质量评分⬆词错误率/%⬇相似度/%⬆语音质量评分⬆
F5-TTS5.478.90------
SparkTTS5.1511.0------
GPT-SoVits7.3412.5------
CosyVoice24.086.3212.5872.63.8111.9666.73.95
OpenAudio-s1-mini4.005.5418.158.23.7712.455.73.89
IndexTTS23.584.4512.874.63.65---
HiggsAudio-v29.547.8941.060.23.3910.361.83.68
CosyVoice3-0.5B3.895.2414.1578.63.759.0475.93.92
CosyVoice3-1.5B3.914.999.7778.53.7910.5576.13.95
VoxCPM3.404.0412.966.13.597.8964.33.74

⚠️ 风险与局限性

  • 模型整体表现:尽管VoxCPM已在大规模数据集上完成训练,但仍可能生成出乎意料、带有偏见或包含瑕疵的输出内容。
  • 语音克隆的潜在滥用风险:VoxCPM强大的零样本语音克隆功能能够生成高度逼真的合成语音。这项技术可能被滥用于制作具有欺骗性的深度伪造内容,以达到冒充、欺诈或传播虚假信息的目的。本模型的用户不得利用其创建侵犯个人权利的内容。严禁将VoxCPM用于任何非法或不道德的用途。我们强烈建议,任何使用本模型生成并公开发布的内容都应明确标记为AI生成。
  • 当前技术局限性:尽管模型总体稳定,但偶尔可能出现不稳定情况,尤其是在处理极长或富有表现力的输入时。此外,当前版本对特定语音属性(如情感或说话风格)的直接控制能力有限。
  • 双语模型:VoxCPM主要基于中文和英文数据进行训练。在其他语言上的性能无法保证,可能会导致生成不可预测或低质量的音频。
  • 本模型仅用于研究和开发目的发布。我们不建议在未经严格测试和安全评估的情况下,将其用于生产环境或商业应用。请负责任地使用VoxCPM。

📄 许可证

VoxCPM模型权重和代码基于Apache-2.0许可证开源。