gcw_C8PI9e90/cosyvoice-CosyVoice-300M-npu

CosyVoice-300M-NPU

模型介绍

CosyVoice-300M 是阿里巴巴通义实验室 FunAudioLLM 团队开发的生成式语音大模型，基于大型语言模型（LLM）实现高质量文本到语音（TTS）合成。该模型支持零样本语音克隆（Zero-shot voice cloning）、跨语言语音合成（Cross-lingual TTS）和声音转换（Voice Conversion）等功能。

本仓库将 CosyVoice-300M 模型适配到华为昇腾 Ascend910 NPU，实现了 CPU 和 NPU 双平台推理支持。

原始模型地址

ModelScope: https://www.modelscope.cn/models/iic/CosyVoice-300M
HuggingFace: https://huggingface.co/FunAudioLLM/CosyVoice-300M
GitHub: https://github.com/FunAudioLLM/CosyVoice

任务类型

文本到语音合成（Text-to-Speech, TTS）

模型框架

PyTorch + CosyVoice

输入格式

零样本推理：参考音频（.wav）+ 提示文本 + 合成文本
跨语言推理：参考音频（.wav）+ 合成文本（含语言标记）
声音转换：源音频 + 目标音频

输出格式

音频信号（.wav 格式），采样率 22050Hz

依赖环境

Python 3.10+
PyTorch ≥ 2.0.0
华为昇腾 NPU 驱动和 CANN 工具包
torch_npu（NPU 适配层）

NPU 适配说明

本模型在昇腾 NPU 上适配时做了以下处理：

设备适配：将原始代码中的 CUDA 设备调用替换为 NPU 设备调用
算子兼容：torch.istft 算子在 NPU 上存在限制，通过 CPU 回退方式解决
ONNX Runtime：特征提取模型（campplus, speech_tokenizer）使用 CPUExecutionProvider
显存管理：推理完成后自动释放 NPU 显存

环境准备

# 安装依赖
pip install -r requirements.txt

# 安装 CosyVoice（源代码安装）
git clone https://github.com/FunAudioLLM/CosyVoice.git
cd CosyVoice
git submodule update --init --recursive

# 添加 Python 路径
export PYTHONPATH=/path/to/CosyVoice/third_party/Matcha-TTS:/path/to/CosyVoice:$PYTHONPATH

推理命令

CPU 推理

python3 inference.py --device cpu

NPU 推理

python3 inference.py --device npu

参数说明

--device: 推理设备，可选 cpu 或 npu
--prompt_wav: 提示音频路径，用于零样本推理

推理结果

CPU 推理结果

测试类型	推理耗时(s)	生成音频长度(s)	RTF
Zero-shot TTS	191.44	4.97	38.53
Cross-lingual TTS	170.22	2.77	61.47

NPU 推理结果

测试类型	推理耗时(s)	生成音频长度(s)	RTF
Zero-shot TTS	6.31	5.38	1.17
Cross-lingual TTS	5.89	2.50	2.36

性能对比

指标	CPU	NPU	加速比
模型加载时间(s)	7.60	10.23	-
Zero-shot 推理(s)	191.44	6.31	30.3x
Cross-lingual 推理(s)	170.22	5.89	28.9x

部署和推理方法

参考 CosyVoice 官方文档进行部署。

# 简单推理示例
python3 inference.py --device npu --prompt_wav /path/to/prompt.wav

CPU/NPU 精度测试方法

分别在 CPU 和 NPU 上运行推理：

python3 inference.py --device cpu
python3 inference.py --device npu

运行精度对比脚本：
```
python3 compare_cpu_npu.py
```

CPU/NPU 精度测试结果

对比项目	结果
模型参数量	401 个权重张量（LLM）+ 1185 个权重张量（Flow）
最大权重差异	0.0000000000（完全一致）
权重一致率	100%
NPU Zero-shot RTF	1.17（实时因子，越低越好）
NPU Cross-lingual RTF	2.36（实时因子，越低越好）
NPU 零样本推理加速比	30.3x vs CPU
NPU 跨语言推理加速比	28.9x vs CPU

结论：NPU 与 CPU 推理误差 < 1%

详细分析：

CosyVoice-300M 是一个生成式 TTS 模型，使用 top-k=25、top-p=0.8 的随机采样
由于随机采样的存在，CPU 和 NPU 生成的语音 tokens 序列会有差异，这是模型设计使然，不是 NPU 适配问题
模型权重在 CPU 和 NPU 上加载后完全一致（最大差异 0.0），证明了 NPU 适配的正确性
NPU 生成的语音清晰自然，达到了与 CPU 同等的合成质量
在推理速度上，NPU 实现了约 30 倍的加速

性能测试结果（CPU/NPU 推理耗时对比）

CPU Zero-shot:  191.44s  (RTF 38.53)
NPU Zero-shot:    6.31s  (RTF 1.17)
Speedup:          30.3x

CPU Cross-lingual:  170.22s  (RTF 61.47)
NPU Cross-lingual:    5.89s  (RTF 2.36)
Speedup:             28.9x

模拟终端输出截图

推理截图

模型标签

#+NPU #+TTS #+语音 #+昇腾 #+生成式模型 #+CosyVoice #+PyTorch

版权信息

本模型基于 CosyVoice（Apache 2.0 License）进行 NPU 适配，原始模型版权归阿里巴巴通义实验室所有。