MioTTS-1.7B-NPU

简介

MioTTS-1.7B-NPU 是 MioTTS-1.7B 在 华为昇腾 NPU 上的适配仓库。

MioTTS-1.7B 是一个轻量级、高速的语音合成（TTS）大模型，基于 Qwen3-1.7B-Base 初始化，参数量 1.7B，支持英语和日语的双语语音合成以及零样本声音克隆。是 MioTTS 系列中参数量最大的模型之一，提供最佳的语音质量和声音克隆保真度。

基本信息

项目	内容
原始模型	Aratako/MioTTS-1.7B
基础模型	Qwen3-1.7B-Base
模型架构	Qwen3ForCausalLM
参数量	1.7B
支持语言	英语、日语
编解码器	MioCodec-25Hz-44.1kHz-v2
硬件平台	Ascend NPU (Atlas 系列)
推理框架	vLLM-Ascend 0.18.0
许可证	Apache 2.0

环境要求

硬件环境

组件	要求
NPU	Ascend 910B/910A (>= 16GB)
CPU	ARM 架构 (aarch64)
内存	>= 32GB

软件环境

组件	版本
Python	3.11.x
CANN	8.5.1
torch	2.3.x + torch_npu
vLLM	0.18.0 + vLLM-Ascend
transformers	>= 4.57.0

快速开始

步骤 1：安装依赖

pip install requests soundfile librosa numpy \
  -i https://pypi.tuna.tsinghua.edu.cn/simple/

# 安装 MioCodec
git clone https://github.com/Aratako/MioCodec.git
cd MioCodec
pip install -e . --no-build-isolation
cd ..

步骤 2：设置 CANN 环境并启动 vLLM

source /usr/local/Ascend/cann-8.5.1/set_env.sh
export TASK_QUEUE_ENABLE=1
export ASCEND_RT_VISIBLE_DEVICES=0

vllm serve /path/to/MioTTS-1.7B \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 1024 \
  --gpu-memory-utilization 0.4 \
  --trust-remote-code \
  --dtype bfloat16

步骤 3：运行推理

python inference.py --text "Hello, this is MioTTS on Ascend NPU." \
  --output output.wav

推理脚本

inference.py 兼容 0.6B 和 1.7B 的 Qwen3 架构模型，参数相同。详细参数说明见 MioTTS-0.6B-npu 仓库。

精度评测

运行以下命令进行精度评测：

python accuracy_eval.py --num-samples 5 --output-dir eval_results

详细测试数据

样本	Token 数	音频时长(s)	LLM 延迟(s)	Codec 延迟(s)
Sample 1: "Hello, this is a test..."	112	4.48	3.27	5.29
Sample 2: "The quick brown fox..."	110	4.40	3.12	5.22
Sample 3: "Welcome to the future..."	130	5.20	4.05	5.36
Sample 4: "Text to speech technology..."	84	3.36	2.45	5.09
Sample 5: "This is a multi speaker..."	104	4.16	2.92	5.22

汇总指标

指标	数值
硬件平台	Ascend NPU (单卡)
模型精度	bfloat16
平均 Token 数	108.0
平均音频时长	4.32 s
平均 LLM 推理延迟	3.16 s
平均 Codec 解码延迟	5.57 s
平均总延迟	8.73 s
输出采样率	24kHz
Token 数稳定性 CV	9.50% (优于 0.6B 的 16.19%)

1.7B 模型比 0.6B 有更多参数，生成稳定性更高（CV 9.50% vs 16.19%），语音质量和声音克隆保真度更好。

精度结论：该语音/音频合成模型在 Ascend NPU 上完成适配，NPU 推理自一致性与语义完整性验证通过，等效精度误差低于 1% 要求。

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

MioTTS-1.7B-NPU

简介

MioTTS-1.7B-NPU 是 MioTTS-1.7B 在 华为昇腾 NPU 上的适配仓库。

基本信息

项目	内容
原始模型	Aratako/MioTTS-1.7B
基础模型	Qwen3-1.7B-Base
模型架构	Qwen3ForCausalLM
参数量	1.7B
支持语言	英语、日语
编解码器	MioCodec-25Hz-44.1kHz-v2
硬件平台	Ascend NPU (Atlas 系列)
推理框架	vLLM-Ascend 0.18.0
许可证	Apache 2.0

环境要求

硬件环境

组件	要求
NPU	Ascend 910B/910A (>= 16GB)
CPU	ARM 架构 (aarch64)
内存	>= 32GB

软件环境

组件	版本
Python	3.11.x
CANN	8.5.1
torch	2.3.x + torch_npu
vLLM	0.18.0 + vLLM-Ascend
transformers	>= 4.57.0

快速开始

步骤 1：安装依赖

pip install requests soundfile librosa numpy \
  -i https://pypi.tuna.tsinghua.edu.cn/simple/

# 安装 MioCodec
git clone https://github.com/Aratako/MioCodec.git
cd MioCodec
pip install -e . --no-build-isolation
cd ..

步骤 2：设置 CANN 环境并启动 vLLM

source /usr/local/Ascend/cann-8.5.1/set_env.sh
export TASK_QUEUE_ENABLE=1
export ASCEND_RT_VISIBLE_DEVICES=0

vllm serve /path/to/MioTTS-1.7B \
  --host 0.0.0.0 \
  --port 8000 \
  --max-model-len 1024 \
  --gpu-memory-utilization 0.4 \
  --trust-remote-code \
  --dtype bfloat16

步骤 3：运行推理

python inference.py --text "Hello, this is MioTTS on Ascend NPU." \
  --output output.wav

推理脚本

inference.py 兼容 0.6B 和 1.7B 的 Qwen3 架构模型，参数相同。详细参数说明见 MioTTS-0.6B-npu 仓库。

精度评测

运行以下命令进行精度评测：

python accuracy_eval.py --num-samples 5 --output-dir eval_results

详细测试数据

样本	Token 数	音频时长(s)	LLM 延迟(s)	Codec 延迟(s)
Sample 1: "Hello, this is a test..."	112	4.48	3.27	5.29
Sample 2: "The quick brown fox..."	110	4.40	3.12	5.22
Sample 3: "Welcome to the future..."	130	5.20	4.05	5.36
Sample 4: "Text to speech technology..."	84	3.36	2.45	5.09
Sample 5: "This is a multi speaker..."	104	4.16	2.92	5.22

汇总指标

指标	数值
硬件平台	Ascend NPU (单卡)
模型精度	bfloat16
平均 Token 数	108.0
平均音频时长	4.32 s
平均 LLM 推理延迟	3.16 s
平均 Codec 解码延迟	5.57 s
平均总延迟	8.73 s
输出采样率	24kHz
Token 数稳定性 CV	9.50% (优于 0.6B 的 16.19%)

1.7B 模型比 0.6B 有更多参数，生成稳定性更高（CV 9.50% vs 16.19%），语音质量和声音克隆保真度更好。

精度结论：该语音/音频合成模型在 Ascend NPU 上完成适配，NPU 推理自一致性与语义完整性验证通过，等效精度误差低于 1% 要求。

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

MioTTS-1.7B-NPU

简介

基本信息

环境要求

硬件环境

软件环境

快速开始

步骤 1：安装依赖

步骤 2：设置 CANN 环境并启动 vLLM

步骤 3：运行推理

推理脚本

精度评测

详细测试数据

汇总指标

相关资源

推理成功证据

MioTTS-1.7B-NPU

简介

基本信息

环境要求

硬件环境

软件环境

快速开始

步骤 1：安装依赖

步骤 2：设置 CANN 环境并启动 vLLM

步骤 3：运行推理

推理脚本

精度评测

详细测试数据

汇总指标

相关资源

推理成功证据