Step-Audio-TTS-3B

Step-Audio-TTS-3B 是业内首款基于 LLM-Chat 范式在大规模合成数据集上训练的文本转语音（TTS）模型。该模型在 SEED TTS Eval 基准测试中取得了语音识别字符错误率（CER）的最先进（SOTA）结果。它支持多种语言、丰富的情感表达以及多样化的语音风格控制。值得关注的是，Step-Audio-TTS-3B 也是业内首个能够生成说唱（RAP）和哼唱（Humming）的 TTS 模型，这标志着语音合成领域的一项重大进展。

本仓库提供了 StepAudio-TTS-3B 的模型权重，这是一个采用双码本训练的大语言模型（LLM），用于文本到语音的合成。此外，仓库还包含一个通过双码本方法训练的声码器，以及一个专门针对哼唱生成优化的声码器。这些资源共同利用先进的双码本训练方法，实现了高质量的语音合成和哼唱功能。

GLM-4-Voice 与 MinMo 的内容一致性（CER/WER）性能对比

模型	test-zh	test-en
模型	CER（%）↓	WER（%）↓
GLM-4-Voice	2.19	2.91
MinMo	2.48	2.90
Step-Audio	1.53	2.71

TTS模型在SEED测试集上的结果

StepAudio-TTS-3B-Single表示采用双码本主干与单码本声码器的模型*

模型	test-zh		test-en
模型	字错误率（CER）(%) ↓	语音相似度（SS） ↑	词错误率（WER）(%) ↓	语音相似度（SS） ↑
FireRedTTS	1.51	0.630	3.82	0.460
MaskGCT	2.27	0.774	2.62	0.774
CosyVoice	3.63	0.775	4.29	0.699
CosyVoice 2	1.45	0.806	2.57	0.736
CosyVoice 2-S	1.45	0.812	2.38	0.743
Step-Audio-TTS-3B-Single	1.37	0.802	2.52	0.704
Step-Audio-TTS-3B	1.31	0.733	2.31	0.660
Step-Audio-TTS	1.17	0.73	2.0	0.660

双码本重合成与Cosyvoice的性能对比

Token	test-zh		test-en
Token	字符错误率（%）↓	语音相似度 ↑	词错误率（%）↓	语音相似度 ↑
Groundtruth	0.972	-	2.156	-
CosyVoice	2.857	0.849	4.519	0.807
Step-Audio-TTS-3B	2.192	0.784	3.585	0.742

Step-Audio-TTS-3B

GLM-4-Voice 与 MinMo 的内容一致性（CER/WER）性能对比

模型	test-zh	test-en
模型	CER（%）↓	WER（%）↓
GLM-4-Voice	2.19	2.91
MinMo	2.48	2.90
Step-Audio	1.53	2.71

TTS模型在SEED测试集上的结果

StepAudio-TTS-3B-Single表示采用双码本主干与单码本声码器的模型*

模型	test-zh		test-en
模型	字错误率（CER）(%) ↓	语音相似度（SS） ↑	词错误率（WER）(%) ↓	语音相似度（SS） ↑
FireRedTTS	1.51	0.630	3.82	0.460
MaskGCT	2.27	0.774	2.62	0.774
CosyVoice	3.63	0.775	4.29	0.699
CosyVoice 2	1.45	0.806	2.57	0.736
CosyVoice 2-S	1.45	0.812	2.38	0.743
Step-Audio-TTS-3B-Single	1.37	0.802	2.52	0.704
Step-Audio-TTS-3B	1.31	0.733	2.31	0.660
Step-Audio-TTS	1.17	0.73	2.0	0.660

双码本重合成与Cosyvoice的性能对比

Token	test-zh		test-en
Token	字符错误率（%）↓	语音相似度 ↑	词错误率（%）↓	语音相似度 ↑
Groundtruth	0.972	-	2.156	-
CosyVoice	2.857	0.849	4.519	0.807
Step-Audio-TTS-3B	2.192	0.784	3.585	0.742

Step-Audio-TTS-3B

GLM-4-Voice 与 MinMo 的内容一致性（CER/WER）性能对比

TTS模型在SEED测试集上的结果

双码本重合成与Cosyvoice的性能对比

更多信息

Step-Audio-TTS-3B

GLM-4-Voice 与 MinMo 的内容一致性（CER/WER）性能对比

TTS模型在SEED测试集上的结果

双码本重合成与Cosyvoice的性能对比

更多信息