这是基于MindSpore实现的微软文本转语音系统FastSpeech 2:快速且高质量的端到端文本转语音。
FastSpeech 2有几个版本。 此实现与版本1更为相似,它使用F0值作为音调特征。 另一方面,后续版本使用连续小波变换提取的频谱图作为音调特征。

| 模型 | 数据集 | 检查点 | 总批量大小 | 梅尔频谱数 | 硬件 | MindSpore版本 |
|---|---|---|---|---|---|---|
| FastSpeech2(基础版) | LJSpeech-1.1 | 16万个步骤 | 32 | 128 | 1 x Ascend | 1.9.0 |
有关如何训练和推断模型的信息,请查阅MindAudio GitHub 仓库。
GNU通用公共许可证v2.0