parakeet-tdt-0.6b-v2 是一个 0.6B 参数的 ASR (自动语音识别) 模型,本项目提供其在华为 Ascend NPU 环境下的部署方案。
/data/ysws/agentsp/parakeet-tdt-0.6b-v2-ascend/
├── inference.py # 精度测试脚本
├── log.txt # 测试日志
├── README.md # 本文档
├── test_audio_0.wav # 测试音频样本
├── test_audio_1.wav
├── test_audio_2.wav
└── fusion_result.json # 融合结果docker exec -it test-modelagent bashsource /usr/local/Ascend/ascend-toolkit/set_env.sh模型文件应放在 /data/ysws/agentsp/parakeet-tdt-0.6b-v2/ 目录下:
pip install webdataset jiwer datasets editdistance ipython -i https://repo.huaweicloud.com/repository/pypi/simple/ --trusted-host repo.huaweicloud.comcd /data/ysws/agentsp/parakeet-tdt-0.6b-v2-ascend/
python3 inference.py| 指标 | 实测值 | 阈值 | 状态 |
|---|---|---|---|
| Max absolute error | 3.33e-05 | < 1e-3 | PASS |
| Mean absolute error | 3.91e-06 | < 1e-5 | PASS |
| Max relative error | 0.0093% | < 1% | PASS |
| 操作 | 耗时 |
|---|---|
| 模型加载 | 26.04s |
| NPU 推理 (1s audio) | 8.502s |
| 指标 | CPU | NPU |
|---|---|---|
| Output shape | [1, 1024, 13] | [1, 1024, 13] |
| Value range | [-0.2378, 0.3588] | [-0.2377, 0.3589] |
完整测试日志保存在 log.txt
A: 检查 NPU 驱动是否正确安装,确保 CANN 环境变量已 source。
A: 首次加载会解析 .nemo 文件,后续调用会使用缓存。