Step-Audio-TTS-3B:可用于高质量语音合成,支持多语言、多种情感表达及语音风格控制,还能生成RAP和哼唱。该项目是首个基于LLM-Chat范式在大规模合成数据集上训练的TTS模型,采用双码本训练方法,包含语音合成器和哼唱优化声码器,在SEED TTS Eval基准上实现SOTA字符错误率。【此简介由AI生成】 - AtomGit AI社区