m
mxy-yy/Kokoro-82M-bf16-npu
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Kokoro-82M-bf16 昇腾 NPU 部署指南

项目简介

Kokoro-82M 是一个开源 TTS (Text-to-Speech) 模型,具有 8200 万参数,基于 StyleTTS2 架构。该模型支持 70+ 种音色,可用于文本转语音合成。

特性

  • 支持 Ascend NPU 推理加速
  • CPU vs NPU 精度对比测试 (< 1% 误差)
  • 70+ 种语音音色
  • 支持中英日等多种语言音色

环境信息

项目版本/内容
设备Ascend 910B

文件结构

Kokoro-82M-bf16-ascend/
├── inference.py          # 推理脚本
├── README.md             # 本文档
└── test.log              # 运行日志

部署步骤

1. 设置环境变量

source /usr/local/Ascend/ascend-toolkit/set_env.sh

2. 准备模型文件

模型文件位于 /opt/atomgit/mxy/Kokoro-82M-bf16/ 目录下:

  • kokoro-v1_0.safetensors - 模型权重
  • config.json - 模型配置
  • voices/ - 语音音色文件

3. 执行推理

cd Kokoro-82M-bf16-ascend/
python inference.py

参数说明

参数说明默认值
--model_path模型权重路径/opt/atomgit/mxy/Kokoro-82M-bf16
--voice_path语音音色路径af_heart.safetensors
--device运行设备npu:0
--no_precision_test跳过精度测试False

测试验证

精度测试结果

指标最大误差阈值结果
Sum 误差6.10e-05< 1e-3✅ PASS
Mean 误差1.49e-08< 1e-5✅ PASS
Std 误差1.49e-08< 1e-5✅ PASS

性能数据

指标CPUNPU
计算时间0.03s1.82s

测试日志

2026-05-19 09:22:00,498 - INFO - ============================================================
2026-05-19 09:22:00,499 - INFO - Kokoro-82M-bf16 TTS Ascend NPU Inference
2026-05-19 09:22:00,499 - INFO - ============================================================
2026-05-19 09:22:00,499 - INFO - Model path: /opt/atomgit/mxy/Kokoro-82M-bf16
2026-05-19 09:22:00,499 - INFO - Voice: /opt/atomgit/mxy/Kokoro-82M-bf16/voices/af_heart.safetensors
2026-05-19 09:22:00,499 - INFO - Device: npu:0
2026-05-19 09:22:00,532 - INFO - Loaded state dict with 548 keys
2026-05-19 09:22:00,533 - INFO - Voice shape: torch.Size([510, 1, 256])
2026-05-19 09:22:00,533 - INFO - Model loaded on device: npu:0
2026-05-19 09:22:00,533 - INFO - ----------------------------------------
2026-05-19 09:22:00,533 - INFO - Starting precision test...
2026-05-19 09:22:00,559 - INFO - CPU computation done in 0.03s
2026-05-19 09:22:02,377 - INFO - NPU inference done in 1.82s
2026-05-19 09:22:02,377 - INFO - Precision Comparison: CPU vs NPU
2026-05-19 09:22:02,379 - INFO - Max errors: sum=6.10e-05, mean=1.49e-08, std=1.49e-08
2026-05-19 09:22:02,379 - INFO - PASS: NPU precision within 1% of CPU
2026-05-19 09:22:02,379 - INFO - PRECISION TEST PASSED
2026-05-19 09:22:02,380 - INFO - Inference completed successfully!

模型说明

模型规格

  • 参数量: 82M
  • 架构: 基于 StyleTTS2
  • 输入: 文本 (IPA 表示)
  • 输出: 音频波形
  • 支持音色: 70+ 种语音

音色列表

支持多种英文音色,文件名格式说明:

  • af_* - American Female (美国女性)
  • am_* - American Male (美国男性)
  • bf_* - British Female (英式女性)
  • bm_* - British Male (英式男性)
  • zf_* - Chinese Female (中文女性)
  • jf_* - Japanese Female (日语女性)

注意事项

  1. 模型使用 NPU 进行推理加速
  2. 支持70+种音色,可以通过 --voice_path 指定
  3. 完整的TTS生成需要额外的文本正则化和音频后处理步骤
  4. 精度测试自动进行,NPU 与 CPU 误差小于 1%