Kokoro-82M-bf16 昇腾 NPU 部署指南

项目简介

Kokoro-82M 是一个开源 TTS (Text-to-Speech) 模型，具有 8200 万参数，基于 StyleTTS2 架构。该模型支持 70+ 种音色，可用于文本转语音合成。

特性

支持 Ascend NPU 推理加速
CPU vs NPU 精度对比测试 (< 1% 误差)
70+ 种语音音色
支持中英日等多种语言音色

环境信息

项目	版本/内容
设备	Ascend 910B

文件结构

Kokoro-82M-bf16-ascend/
├── inference.py          # 推理脚本
├── README.md             # 本文档
└── test.log              # 运行日志

部署步骤

1. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

2. 准备模型文件

模型文件位于 /opt/atomgit/mxy/Kokoro-82M-bf16/ 目录下：

kokoro-v1_0.safetensors - 模型权重
config.json - 模型配置
voices/ - 语音音色文件

3. 执行推理

cd Kokoro-82M-bf16-ascend/
python inference.py

参数说明

参数	说明	默认值
--model_path	模型权重路径	/opt/atomgit/mxy/Kokoro-82M-bf16
--voice_path	语音音色路径	af_heart.safetensors
--device	运行设备	npu:0
--no_precision_test	跳过精度测试	False

测试验证

精度测试结果

指标	最大误差	阈值	结果
Sum 误差	6.10e-05	< 1e-3	✅ PASS
Mean 误差	1.49e-08	< 1e-5	✅ PASS
Std 误差	1.49e-08	< 1e-5	✅ PASS

性能数据

指标	CPU	NPU
计算时间	0.03s	1.82s

测试日志

2026-05-19 09:22:00,498 - INFO - ============================================================
2026-05-19 09:22:00,499 - INFO - Kokoro-82M-bf16 TTS Ascend NPU Inference
2026-05-19 09:22:00,499 - INFO - ============================================================
2026-05-19 09:22:00,499 - INFO - Model path: /opt/atomgit/mxy/Kokoro-82M-bf16
2026-05-19 09:22:00,499 - INFO - Voice: /opt/atomgit/mxy/Kokoro-82M-bf16/voices/af_heart.safetensors
2026-05-19 09:22:00,499 - INFO - Device: npu:0
2026-05-19 09:22:00,532 - INFO - Loaded state dict with 548 keys
2026-05-19 09:22:00,533 - INFO - Voice shape: torch.Size([510, 1, 256])
2026-05-19 09:22:00,533 - INFO - Model loaded on device: npu:0
2026-05-19 09:22:00,533 - INFO - ----------------------------------------
2026-05-19 09:22:00,533 - INFO - Starting precision test...
2026-05-19 09:22:00,559 - INFO - CPU computation done in 0.03s
2026-05-19 09:22:02,377 - INFO - NPU inference done in 1.82s
2026-05-19 09:22:02,377 - INFO - Precision Comparison: CPU vs NPU
2026-05-19 09:22:02,379 - INFO - Max errors: sum=6.10e-05, mean=1.49e-08, std=1.49e-08
2026-05-19 09:22:02,379 - INFO - PASS: NPU precision within 1% of CPU
2026-05-19 09:22:02,379 - INFO - PRECISION TEST PASSED
2026-05-19 09:22:02,380 - INFO - Inference completed successfully!

模型说明

模型规格

参数量: 82M
架构: 基于 StyleTTS2
输入: 文本 (IPA 表示)
输出: 音频波形
支持音色: 70+ 种语音

音色列表

支持多种英文音色，文件名格式说明:

af_* - American Female (美国女性)
am_* - American Male (美国男性)
bf_* - British Female (英式女性)
bm_* - British Male (英式男性)
zf_* - Chinese Female (中文女性)
jf_* - Japanese Female (日语女性)

注意事项

模型使用 NPU 进行推理加速
支持70+种音色，可以通过 --voice_path 指定
完整的TTS生成需要额外的文本正则化和音频后处理步骤
精度测试自动进行，NPU 与 CPU 误差小于 1%

Kokoro-82M-bf16 昇腾 NPU 部署指南

项目简介

Kokoro-82M 是一个开源 TTS (Text-to-Speech) 模型，具有 8200 万参数，基于 StyleTTS2 架构。该模型支持 70+ 种音色，可用于文本转语音合成。

特性

支持 Ascend NPU 推理加速
CPU vs NPU 精度对比测试 (< 1% 误差)
70+ 种语音音色
支持中英日等多种语言音色

环境信息

项目	版本/内容
设备	Ascend 910B

文件结构

Kokoro-82M-bf16-ascend/
├── inference.py          # 推理脚本
├── README.md             # 本文档
└── test.log              # 运行日志

部署步骤

1. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

2. 准备模型文件

模型文件位于 /opt/atomgit/mxy/Kokoro-82M-bf16/ 目录下：

kokoro-v1_0.safetensors - 模型权重
config.json - 模型配置
voices/ - 语音音色文件

3. 执行推理

cd Kokoro-82M-bf16-ascend/
python inference.py

参数说明

参数	说明	默认值
--model_path	模型权重路径	/opt/atomgit/mxy/Kokoro-82M-bf16
--voice_path	语音音色路径	af_heart.safetensors
--device	运行设备	npu:0
--no_precision_test	跳过精度测试	False

测试验证

精度测试结果

指标	最大误差	阈值	结果
Sum 误差	6.10e-05	< 1e-3	✅ PASS
Mean 误差	1.49e-08	< 1e-5	✅ PASS
Std 误差	1.49e-08	< 1e-5	✅ PASS

性能数据

指标	CPU	NPU
计算时间	0.03s	1.82s

测试日志

2026-05-19 09:22:00,498 - INFO - ============================================================
2026-05-19 09:22:00,499 - INFO - Kokoro-82M-bf16 TTS Ascend NPU Inference
2026-05-19 09:22:00,499 - INFO - ============================================================
2026-05-19 09:22:00,499 - INFO - Model path: /opt/atomgit/mxy/Kokoro-82M-bf16
2026-05-19 09:22:00,499 - INFO - Voice: /opt/atomgit/mxy/Kokoro-82M-bf16/voices/af_heart.safetensors
2026-05-19 09:22:00,499 - INFO - Device: npu:0
2026-05-19 09:22:00,532 - INFO - Loaded state dict with 548 keys
2026-05-19 09:22:00,533 - INFO - Voice shape: torch.Size([510, 1, 256])
2026-05-19 09:22:00,533 - INFO - Model loaded on device: npu:0
2026-05-19 09:22:00,533 - INFO - ----------------------------------------
2026-05-19 09:22:00,533 - INFO - Starting precision test...
2026-05-19 09:22:00,559 - INFO - CPU computation done in 0.03s
2026-05-19 09:22:02,377 - INFO - NPU inference done in 1.82s
2026-05-19 09:22:02,377 - INFO - Precision Comparison: CPU vs NPU
2026-05-19 09:22:02,379 - INFO - Max errors: sum=6.10e-05, mean=1.49e-08, std=1.49e-08
2026-05-19 09:22:02,379 - INFO - PASS: NPU precision within 1% of CPU
2026-05-19 09:22:02,379 - INFO - PRECISION TEST PASSED
2026-05-19 09:22:02,380 - INFO - Inference completed successfully!

模型说明

模型规格

参数量: 82M
架构: 基于 StyleTTS2
输入: 文本 (IPA 表示)
输出: 音频波形
支持音色: 70+ 种语音

音色列表

支持多种英文音色，文件名格式说明:

af_* - American Female (美国女性)
am_* - American Male (美国男性)
bf_* - British Female (英式女性)
bm_* - British Male (英式男性)
zf_* - Chinese Female (中文女性)
jf_* - Japanese Female (日语女性)

注意事项

模型使用 NPU 进行推理加速
支持70+种音色，可以通过 --voice_path 指定
完整的TTS生成需要额外的文本正则化和音频后处理步骤
精度测试自动进行，NPU 与 CPU 误差小于 1%