Step-Audio-TTS-3B 是业界首个基于 LLM-Chat 范式在大规模合成数据集上训练的文本转语音(TTS)模型,在 SEED TTS Eval 基准测试中实现了 SOTA 的字符错误率(CER)表现。该模型支持多语言、丰富的情感表达及多样化的音色风格控制。值得注意的是,Step-Audio-TTS-3B 还是业内首个具备 RAP 和哼唱生成能力的 TTS 模型,标志着语音合成领域的重大突破。
本仓库提供 StepAudio-TTS-3B 的模型权重,这是一个采用双码本训练的大型语言模型(LLM)文本转语音合成系统。同时包含基于双码本训练的声码器,以及专为哼唱生成优化的专用声码器。这些资源共同构成了基于先进双码本训练方法的高质量语音合成与哼唱生成解决方案。
| 模型 | 中文测试集 | 英文测试集 |
|---|---|---|
| CER (%) ↓ | WER (%) ↓ | |
| GLM-4-Voice | 2.19 | 2.91 |
| MinMo | 2.48 | 2.90 |
| Step-Audio | 1.53 | 2.71 |
注:StepAudio-TTS-3B-Single 表示采用双码本主干网络搭配单码本声码器的配置
| 模型 | 中文测试集 | 英文测试集 | ||
|---|---|---|---|---|
| CER (%) ↓ | 语音相似度 ↑ | WER (%) ↓ | 语音相似度 ↑ | |
| FireRedTTS | 1.51 | 0.630 | 3.82 | 0.460 |
| MaskGCT | 2.27 | 0.774 | 2.62 | 0.774 |
| CosyVoice | 3.63 | 0.775 | 4.29 | 0.699 |
| CosyVoice 2 | 1.45 | 0.806 | 2.57 | 0.736 |
| CosyVoice 2-S | 1.45 | 0.812 | 2.38 | 0.743 |
| Step-Audio-TTS-3B-Single | 1.37 | 0.802 | 2.52 | 0.704 |
| Step-Audio-TTS-3B | 1.31 | 0.733 | 2.31 | 0.660 |
| Step-Audio-TTS | 1.17 | 0.73 | 2.0 | 0.660 |
| 编码类型 | 中文测试集 | 英文测试集 | ||
|---|---|---|---|---|
| CER (%) ↓ | 语音相似度 ↑ | WER (%) ↓ | 语音相似度 ↑ | |
| 真实音频 | 0.972 | - | 2.156 | - |
| CosyVoice | 2.857 | 0.849 | 4.519 | 0.807 |
| Step-Audio-TTS-3B | 2.192 | 0.784 | 3.585 | 0.742 |
详细信息请访问我们的代码仓库:Step-Audio。