Step-Audio-TTS-3B 是业内首款基于 LLM-Chat 范式在大规模合成数据集上训练的文本转语音(TTS)模型。该模型在 SEED TTS Eval 基准测试中取得了语音识别字符错误率(CER)的最先进(SOTA)结果。它支持多种语言、丰富的情感表达以及多样化的语音风格控制。值得关注的是,Step-Audio-TTS-3B 也是业内首个能够生成说唱(RAP)和哼唱(Humming)的 TTS 模型,这标志着语音合成领域的一项重大进展。
本仓库提供了 StepAudio-TTS-3B 的模型权重,这是一个采用双码本训练的大语言模型(LLM),用于文本到语音的合成。此外,仓库还包含一个通过双码本方法训练的声码器,以及一个专门针对哼唱生成优化的声码器。这些资源共同利用先进的双码本训练方法,实现了高质量的语音合成和哼唱功能。
| 模型 | test-zh | test-en |
|---|---|---|
| CER(%)↓ | WER(%)↓ | |
| GLM-4-Voice | 2.19 | 2.91 |
| MinMo | 2.48 | 2.90 |
| Step-Audio | 1.53 | 2.71 |
| 模型 | test-zh | test-en | ||
|---|---|---|---|---|
| 字错误率(CER)(%) ↓ | 语音相似度(SS) ↑ | 词错误率(WER)(%) ↓ | 语音相似度(SS) ↑ | |
| FireRedTTS | 1.51 | 0.630 | 3.82 | 0.460 |
| MaskGCT | 2.27 | 0.774 | 2.62 | 0.774 |
| CosyVoice | 3.63 | 0.775 | 4.29 | 0.699 |
| CosyVoice 2 | 1.45 | 0.806 | 2.57 | 0.736 |
| CosyVoice 2-S | 1.45 | 0.812 | 2.38 | 0.743 |
| Step-Audio-TTS-3B-Single | 1.37 | 0.802 | 2.52 | 0.704 |
| Step-Audio-TTS-3B | 1.31 | 0.733 | 2.31 | 0.660 |
| Step-Audio-TTS | 1.17 | 0.73 | 2.0 | 0.660 |
| Token | test-zh | test-en | ||
|---|---|---|---|---|
| 字符错误率(%)↓ | 语音相似度 ↑ | 词错误率(%)↓ | 语音相似度 ↑ | |
| Groundtruth | 0.972 | - | 2.156 | - |
| CosyVoice | 2.857 | 0.849 | 4.519 | 0.807 |
| Step-Audio-TTS-3B | 2.192 | 0.784 | 3.585 | 0.742 |
如需了解更多信息,请参阅我们的代码库:Step-Audio。