HuggingFace镜像/Step-Audio-TTS-3B
模型介绍文件和版本分析
下载使用量0

Step-Audio-TTS-3B

Step-Audio-TTS-3B 是业内首款基于 LLM-Chat 范式在大规模合成数据集上训练的文本转语音(TTS)模型。该模型在 SEED TTS Eval 基准测试中取得了语音识别字符错误率(CER)的最先进(SOTA)结果。它支持多种语言、丰富的情感表达以及多样化的语音风格控制。值得关注的是,Step-Audio-TTS-3B 也是业内首个能够生成说唱(RAP)和哼唱(Humming)的 TTS 模型,这标志着语音合成领域的一项重大进展。

本仓库提供了 StepAudio-TTS-3B 的模型权重,这是一个采用双码本训练的大语言模型(LLM),用于文本到语音的合成。此外,仓库还包含一个通过双码本方法训练的声码器,以及一个专门针对哼唱生成优化的声码器。这些资源共同利用先进的双码本训练方法,实现了高质量的语音合成和哼唱功能。

GLM-4-Voice 与 MinMo 的内容一致性(CER/WER)性能对比

模型test-zhtest-en
CER(%)↓WER(%)↓
GLM-4-Voice2.192.91
MinMo2.482.90
Step-Audio1.532.71

TTS模型在SEED测试集上的结果

  • StepAudio-TTS-3B-Single表示采用双码本主干与单码本声码器的模型*
模型test-zhtest-en
字错误率(CER)(%) ↓语音相似度(SS) ↑词错误率(WER)(%) ↓语音相似度(SS) ↑
FireRedTTS1.510.6303.820.460
MaskGCT2.270.7742.620.774
CosyVoice3.630.7754.290.699
CosyVoice 21.450.8062.570.736
CosyVoice 2-S1.450.8122.380.743
Step-Audio-TTS-3B-Single1.370.8022.520.704
Step-Audio-TTS-3B1.310.7332.310.660
Step-Audio-TTS1.170.732.00.660

双码本重合成与Cosyvoice的性能对比

Tokentest-zhtest-en
字符错误率(%)↓语音相似度 ↑词错误率(%)↓语音相似度 ↑
Groundtruth0.972-2.156-
CosyVoice2.8570.8494.5190.807
Step-Audio-TTS-3B2.1920.7843.5850.742

更多信息

如需了解更多信息,请参阅我们的代码库:Step-Audio。