Step-Audio-TTS-3B

Step-Audio-TTS-3B 是业界首个基于 LLM-Chat 范式在大规模合成数据集上训练的文本转语音（TTS）模型，在 SEED TTS Eval 基准测试中实现了 SOTA 的字符错误率（CER）表现。该模型支持多语言、丰富的情感表达及多样化的音色风格控制。值得注意的是，Step-Audio-TTS-3B 还是业内首个具备 RAP 和哼唱生成能力的 TTS 模型，标志着语音合成领域的重大突破。

本仓库提供 StepAudio-TTS-3B 的模型权重，这是一个采用双码本训练的大型语言模型（LLM）文本转语音合成系统。同时包含基于双码本训练的声码器，以及专为哼唱生成优化的专用声码器。这些资源共同构成了基于先进双码本训练方法的高质量语音合成与哼唱生成解决方案。

GLM-4-Voice 与 MinMo 内容一致性（CER/WER）性能对比

模型	中文测试集	英文测试集
模型	CER (%) ↓	WER (%) ↓
GLM-4-Voice	2.19	2.91
MinMo	2.48	2.90
Step-Audio	1.53	2.71

TTS 模型在 SEED 测试集上的表现

注：StepAudio-TTS-3B-Single 表示采用双码本主干网络搭配单码本声码器的配置

模型	中文测试集		英文测试集
模型	CER (%) ↓	语音相似度 ↑	WER (%) ↓	语音相似度 ↑
FireRedTTS	1.51	0.630	3.82	0.460
MaskGCT	2.27	0.774	2.62	0.774
CosyVoice	3.63	0.775	4.29	0.699
CosyVoice 2	1.45	0.806	2.57	0.736
CosyVoice 2-S	1.45	0.812	2.38	0.743
Step-Audio-TTS-3B-Single	1.37	0.802	2.52	0.704
Step-Audio-TTS-3B	1.31	0.733	2.31	0.660
Step-Audio-TTS	1.17	0.73	2.0	0.660

双码本重构与 Cosyvoice 性能对比

编码类型	中文测试集		英文测试集
编码类型	CER (%) ↓	语音相似度 ↑	WER (%) ↓	语音相似度 ↑
真实音频	0.972	-	2.156	-
CosyVoice	2.857	0.849	4.519	0.807
Step-Audio-TTS-3B	2.192	0.784	3.585	0.742

Step-Audio-TTS-3B

GLM-4-Voice 与 MinMo 内容一致性（CER/WER）性能对比

模型	中文测试集	英文测试集
模型	CER (%) ↓	WER (%) ↓
GLM-4-Voice	2.19	2.91
MinMo	2.48	2.90
Step-Audio	1.53	2.71

TTS 模型在 SEED 测试集上的表现

注：StepAudio-TTS-3B-Single 表示采用双码本主干网络搭配单码本声码器的配置

模型	中文测试集		英文测试集
模型	CER (%) ↓	语音相似度 ↑	WER (%) ↓	语音相似度 ↑
FireRedTTS	1.51	0.630	3.82	0.460
MaskGCT	2.27	0.774	2.62	0.774
CosyVoice	3.63	0.775	4.29	0.699
CosyVoice 2	1.45	0.806	2.57	0.736
CosyVoice 2-S	1.45	0.812	2.38	0.743
Step-Audio-TTS-3B-Single	1.37	0.802	2.52	0.704
Step-Audio-TTS-3B	1.31	0.733	2.31	0.660
Step-Audio-TTS	1.17	0.73	2.0	0.660

双码本重构与 Cosyvoice 性能对比

编码类型	中文测试集		英文测试集
编码类型	CER (%) ↓	语音相似度 ↑	WER (%) ↓	语音相似度 ↑
真实音频	0.972	-	2.156	-
CosyVoice	2.857	0.849	4.519	0.807
Step-Audio-TTS-3B	2.192	0.784	3.585	0.742

Step-Audio-TTS-3B

GLM-4-Voice 与 MinMo 内容一致性（CER/WER）性能对比

TTS 模型在 SEED 测试集上的表现

双码本重构与 Cosyvoice 性能对比

更多信息

Step-Audio-TTS-3B

GLM-4-Voice 与 MinMo 内容一致性（CER/WER）性能对比

TTS 模型在 SEED 测试集上的表现

双码本重构与 Cosyvoice 性能对比

更多信息