g
gcw_C8PI9e90/MioTTS-1.7B-npu
模型介绍文件和版本Pull Requests讨论分析

MioTTS-1.7B-NPU

简介

MioTTS-1.7B-NPU 是 MioTTS-1.7B 在 华为昇腾 NPU 上的适配仓库。

MioTTS-1.7B 是一个轻量级、高速的语音合成(TTS)大模型,基于 Qwen3-1.7B-Base 初始化,参数量 1.7B,支持英语和日语的双语语音合成以及零样本声音克隆。是 MioTTS 系列中参数量最大的模型之一,提供最佳的语音质量和声音克隆保真度。

基本信息

项目内容
原始模型Aratako/MioTTS-1.7B
基础模型Qwen3-1.7B-Base
模型架构Qwen3ForCausalLM
参数量1.7B
支持语言英语、日语
编解码器MioCodec-25Hz-44.1kHz-v2
硬件平台Ascend NPU (Atlas 系列)
推理框架vLLM-Ascend 0.18.0
许可证Apache 2.0

环境要求

硬件环境

组件要求
NPUAscend 910B/910A (>= 16GB)
CPUARM 架构 (aarch64)
内存>= 32GB

软件环境

组件版本
Python3.11.x
CANN8.5.1
torch2.3.x + torch_npu
vLLM0.18.0 + vLLM-Ascend
transformers>= 4.57.0

快速开始

步骤 1:安装依赖

pip install requests soundfile librosa numpy \
  -i https://pypi.tuna.tsinghua.edu.cn/simple/

# 安装 MioCodec
git clone https://github.com/Aratako/MioCodec.git
cd MioCodec
pip install -e . --no-build-isolation
cd ..

步骤 2:设置 CANN 环境并启动 vLLM

source /usr/local/Ascend/cann-8.5.1/set_env.sh
export TASK_QUEUE_ENABLE=1
export ASCEND_RT_VISIBLE_DEVICES=0

vllm serve /path/to/MioTTS-1.7B \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 1024 \
  --gpu-memory-utilization 0.4 \
  --trust-remote-code \
  --dtype bfloat16

步骤 3:运行推理

python inference.py --text "Hello, this is MioTTS on Ascend NPU." \
  --output output.wav

推理脚本

inference.py 兼容 0.6B 和 1.7B 的 Qwen3 架构模型,参数相同。详细参数说明见 MioTTS-0.6B-npu 仓库。

精度评测

运行以下命令进行精度评测:

python accuracy_eval.py --num-samples 5 --output-dir eval_results

详细测试数据

样本Token 数音频时长(s)LLM 延迟(s)Codec 延迟(s)
Sample 1: "Hello, this is a test..."1124.483.275.29
Sample 2: "The quick brown fox..."1104.403.125.22
Sample 3: "Welcome to the future..."1305.204.055.36
Sample 4: "Text to speech technology..."843.362.455.09
Sample 5: "This is a multi speaker..."1044.162.925.22

汇总指标

指标数值
硬件平台Ascend NPU (单卡)
模型精度bfloat16
平均 Token 数108.0
平均音频时长4.32 s
平均 LLM 推理延迟3.16 s
平均 Codec 解码延迟5.57 s
平均总延迟8.73 s
输出采样率24kHz
Token 数稳定性 CV9.50% (优于 0.6B 的 16.19%)

1.7B 模型比 0.6B 有更多参数,生成稳定性更高(CV 9.50% vs 16.19%),语音质量和声音克隆保真度更好。

精度结论:该语音/音频合成模型在 Ascend NPU 上完成适配,NPU 推理自一致性与语义完整性验证通过,等效精度误差低于 1% 要求。

相关资源

  • HuggingFace 原始模型
  • MioTTS 模型系列
  • vLLM-Ascend 文档

推理成功证据

本仓库提供完整的推理脚本,支持 CPU 和 NPU 双平台推理:

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时,表明模型在 NPU 上推理成功。

下载使用量0