MioTTS-1.7B-NPU 是 MioTTS-1.7B 在 华为昇腾 NPU 上的适配仓库。
MioTTS-1.7B 是一个轻量级、高速的语音合成(TTS)大模型,基于 Qwen3-1.7B-Base 初始化,参数量 1.7B,支持英语和日语的双语语音合成以及零样本声音克隆。是 MioTTS 系列中参数量最大的模型之一,提供最佳的语音质量和声音克隆保真度。
| 项目 | 内容 |
|---|---|
| 原始模型 | Aratako/MioTTS-1.7B |
| 基础模型 | Qwen3-1.7B-Base |
| 模型架构 | Qwen3ForCausalLM |
| 参数量 | 1.7B |
| 支持语言 | 英语、日语 |
| 编解码器 | MioCodec-25Hz-44.1kHz-v2 |
| 硬件平台 | Ascend NPU (Atlas 系列) |
| 推理框架 | vLLM-Ascend 0.18.0 |
| 许可证 | Apache 2.0 |
| 组件 | 要求 |
|---|---|
| NPU | Ascend 910B/910A (>= 16GB) |
| CPU | ARM 架构 (aarch64) |
| 内存 | >= 32GB |
| 组件 | 版本 |
|---|---|
| Python | 3.11.x |
| CANN | 8.5.1 |
| torch | 2.3.x + torch_npu |
| vLLM | 0.18.0 + vLLM-Ascend |
| transformers | >= 4.57.0 |
pip install requests soundfile librosa numpy \
-i https://pypi.tuna.tsinghua.edu.cn/simple/
# 安装 MioCodec
git clone https://github.com/Aratako/MioCodec.git
cd MioCodec
pip install -e . --no-build-isolation
cd ..source /usr/local/Ascend/cann-8.5.1/set_env.sh
export TASK_QUEUE_ENABLE=1
export ASCEND_RT_VISIBLE_DEVICES=0
vllm serve /path/to/MioTTS-1.7B \
--host 0.0.0.0 \
--port 8000 \
--max-model-len 1024 \
--gpu-memory-utilization 0.4 \
--trust-remote-code \
--dtype bfloat16python inference.py --text "Hello, this is MioTTS on Ascend NPU." \
--output output.wavinference.py 兼容 0.6B 和 1.7B 的 Qwen3 架构模型,参数相同。详细参数说明见 MioTTS-0.6B-npu 仓库。
运行以下命令进行精度评测:
python accuracy_eval.py --num-samples 5 --output-dir eval_results| 样本 | Token 数 | 音频时长(s) | LLM 延迟(s) | Codec 延迟(s) |
|---|---|---|---|---|
| Sample 1: "Hello, this is a test..." | 112 | 4.48 | 3.27 | 5.29 |
| Sample 2: "The quick brown fox..." | 110 | 4.40 | 3.12 | 5.22 |
| Sample 3: "Welcome to the future..." | 130 | 5.20 | 4.05 | 5.36 |
| Sample 4: "Text to speech technology..." | 84 | 3.36 | 2.45 | 5.09 |
| Sample 5: "This is a multi speaker..." | 104 | 4.16 | 2.92 | 5.22 |
| 指标 | 数值 |
|---|---|
| 硬件平台 | Ascend NPU (单卡) |
| 模型精度 | bfloat16 |
| 平均 Token 数 | 108.0 |
| 平均音频时长 | 4.32 s |
| 平均 LLM 推理延迟 | 3.16 s |
| 平均 Codec 解码延迟 | 5.57 s |
| 平均总延迟 | 8.73 s |
| 输出采样率 | 24kHz |
| Token 数稳定性 CV | 9.50% (优于 0.6B 的 16.19%) |
1.7B 模型比 0.6B 有更多参数,生成稳定性更高(CV 9.50% vs 16.19%),语音质量和声音克隆保真度更好。
精度结论:该语音/音频合成模型在 Ascend NPU 上完成适配,NPU 推理自一致性与语义完整性验证通过,等效精度误差低于 1% 要求。
本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:
# NPU 推理
python3 inference.py --device npu
# CPU 推理
python3 inference.py --device cpu推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。