阶跃星辰StepFun/Step-Audio-TTS-3B
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Step-Audio-TTS-3B

Step-Audio-TTS-3B 是业界首个基于 LLM-Chat 范式在大规模合成数据集上训练的文本转语音(TTS)模型,在 SEED TTS Eval 基准测试中实现了 SOTA 的字符错误率(CER)表现。该模型支持多语言、丰富的情感表达及多样化的音色风格控制。值得注意的是,Step-Audio-TTS-3B 还是业内首个具备 RAP 和哼唱生成能力的 TTS 模型,标志着语音合成领域的重大突破。

本仓库提供 StepAudio-TTS-3B 的模型权重,这是一个采用双码本训练的大型语言模型(LLM)文本转语音合成系统。同时包含基于双码本训练的声码器,以及专为哼唱生成优化的专用声码器。这些资源共同构成了基于先进双码本训练方法的高质量语音合成与哼唱生成解决方案。

GLM-4-Voice 与 MinMo 内容一致性(CER/WER)性能对比

模型中文测试集英文测试集
CER (%) ↓WER (%) ↓
GLM-4-Voice2.192.91
MinMo2.482.90
Step-Audio1.532.71

TTS 模型在 SEED 测试集上的表现

注:StepAudio-TTS-3B-Single 表示采用双码本主干网络搭配单码本声码器的配置

模型中文测试集英文测试集
CER (%) ↓语音相似度 ↑WER (%) ↓语音相似度 ↑
FireRedTTS1.510.6303.820.460
MaskGCT2.270.7742.620.774
CosyVoice3.630.7754.290.699
CosyVoice 21.450.8062.570.736
CosyVoice 2-S1.450.8122.380.743
Step-Audio-TTS-3B-Single1.370.8022.520.704
Step-Audio-TTS-3B1.310.7332.310.660
Step-Audio-TTS1.170.732.00.660

双码本重构与 Cosyvoice 性能对比

编码类型中文测试集英文测试集
CER (%) ↓语音相似度 ↑WER (%) ↓语音相似度 ↑
真实音频0.972-2.156-
CosyVoice2.8570.8494.5190.807
Step-Audio-TTS-3B2.1920.7843.5850.742

更多信息

详细信息请访问我们的代码仓库:Step-Audio。