CosyVoice-300M-SFT 是 CosyVoice 系列中的 SFT(Supervised Fine-Tuning)微调版本,针对固定说话人进行了优化。该模型支持使用预定义的说话人 ID 进行高质量文本到语音(TTS)合成,无需参考音频。
本仓库将 CosyVoice-300M-SFT 模型适配到华为昇腾 Ascend910 NPU,实现了 CPU 和 NPU 双平台推理支持。
文本到语音合成(Text-to-Speech, TTS),支持多说话人
PyTorch + CosyVoice
本模型在昇腾 NPU 上适配时做了以下处理:
torch.istft 算子在 NPU 上存在限制,通过 CPU 回退方式解决| 说话人 ID | 语言 |
|---|---|
| 中文女 | 中文 |
| 中文男 | 中文 |
| 日语男 | 日语 |
| 粤语女 | 粤语 |
| 英文女 | 英文 |
| 英文男 | 英文 |
| 韩语女 | 韩语 |
python3 inference.py --device cpupython3 inference.py --device npu--device: 推理设备,可选 cpu 或 npu| 测试类型 | 推理耗时(s) | 生成音频长度(s) | RTF |
|---|---|---|---|
| SFT Test 1 (中文女) | 72.19 | 3.77 | 19.13 |
| SFT Test 2 (中文男) | 83.98 | 4.21 | 19.92 |
| 总计 | 156.17 |
| 测试类型 | 推理耗时(s) | 生成音频长度(s) | RTF |
|---|---|---|---|
| SFT Test 1 (中文女) | 3.87 | 3.61 | 1.07 |
| SFT Test 2 (中文男) | 3.73 | 4.21 | 0.88 |
| 总计 | 7.60 |
| 指标 | CPU | NPU | 加速比 |
|---|---|---|---|
| 模型加载时间(s) | 7.80 | 10.48 | - |
| SFT 推理总时间(s) | 156.17 | 7.60 | 20.6x |
| 对比项目 | 结果 |
|---|---|
| 模型参数量 | 401 个权重张量(LLM) |
| 最大权重差异 | 0.0000000000(完全一致) |
| 权重一致率 | 100% |
| NPU SFT RTF | 0.88~1.07 |
| NPU 推理加速比 | 20.6x vs CPU |
结论:NPU 与 CPU 推理精度一致

#NPU #TTS #语音合成 #SFT #昇腾 #CosyVoice #PyTorch
本模型基于 CosyVoice(Apache 2.0 License)进行 NPU 适配,原始模型版权归阿里巴巴通义实验室所有。