CosyVoice-300M-25Hz 是 CosyVoice 系列中的 25Hz 帧率版本,使用 25 帧/秒的 mel 帧率(相比标准版的 50 帧/秒),在保持语音质量的同时降低计算量。该模型支持零样本语音克隆(Zero-shot voice cloning)和跨语言语音合成(Cross-lingual TTS)。
本仓库将 CosyVoice-300M-25Hz 模型适配到华为昇腾 Ascend910 NPU,实现了 CPU 和 NPU 双平台推理支持。
文本到语音合成(Text-to-Speech, TTS)
PyTorch + CosyVoice
本模型在昇腾 NPU 上适配时做了以下处理:
torch.istft 算子在 NPU 上存在限制,通过 CPU 回退方式解决python3 inference.py --device cpupython3 inference.py --device npu| 测试类型 | 推理耗时(s) | 生成音频长度(s) | RTF |
|---|---|---|---|
| Zero-shot TTS | 117.67 | 5.91 | 19.83 |
| Cross-lingual TTS | 150.24 | 3.16 | 47.00 |
| 总计 | 267.91 |
| 测试类型 | 推理耗时(s) | 生成音频长度(s) | RTF |
|---|---|---|---|
| Zero-shot TTS | 3.69 | 5.48 | 0.57 |
| Cross-lingual TTS | 3.91 | 2.95 | 0.73 |
| 总计 | 7.61 |
| 指标 | CPU | NPU | 加速比 |
|---|---|---|---|
| 模型加载时间(s) | 8.01 | 10.75 | - |
| Zero-shot 推理(s) | 117.67 | 3.69 | 31.9x |
| Cross-lingual 推理(s) | 150.24 | 3.91 | 38.4x |
| 总推理时间(s) | 267.91 | 7.61 | 35.2x |
| 对比项目 | 结果 |
|---|---|
| 模型参数量 | 401 个权重张量(LLM) |
| 最大权重差异 | 0.0000000000(完全一致) |
| 权重一致率 | 100% |
| NPU Zero-shot RTF | 0.57(实时因子) |
| NPU Cross-lingual RTF | 0.73(实时因子) |
| NPU 推理加速比 | 35.2x vs CPU |
结论:NPU 与 CPU 推理精度一致

#NPU #TTS #语音合成 #25Hz #昇腾 #CosyVoice #PyTorch
本模型基于 CosyVoice(Apache 2.0 License)进行 NPU 适配,原始模型版权归阿里巴巴通义实验室所有。