Parakeet-TDT-0.6B-v2(昇腾NPU适配版)
NVIDIA NeMo Parakeet-TDT-0.6B Conformer-Transducer语音识别模型,已适配华为昇腾NPU推理。
| CPU(ONNX Runtime) | NPU(昇腾910) |
|---|
| 编码器延迟 | 1.154秒 | 0.188秒 |
| 总延迟 | 109.95秒 | 1.78秒 |
| 编码器加速比 | — | 6.13倍 |
| 总加速比 | — | 61.82倍 |
| 编码器精度 | — | 99.82%(相对误差0.18%) |
| 文本匹配 | — | 通过 |
模型详情
- 原始模型:eclipse005/parakeet-tdt-0.6b-v2-onnx
- 架构:Conformer编码器 + TDT(截断解码Transformer)解码器
- 任务:自动语音识别(ASR)—— 英语
- 编码器:1024维Conformer,128维梅尔滤波器组输入,8倍下采样
- 解码器:2层LSTM(640隐藏单元)+ 联合网络(1024+640→1030输出)
- 词汇表:1025个SentencePiece风格令牌 + 空白符
- 原始格式:ONNX(encoder-model.onnx + decoder_joint-model.onnx)
- NPU适配:ONNX转PyTorch + torch_npu推理
快速开始
pip install torch torch_npu onnx onnxruntime onnx2torch kaldi-native-fbank soundfile numpy
python inference.py --audio input.wav --device npu
精度验证
| 指标 | 数值 | 阈值 | 状态 |
|---|
| 编码器相对误差 | 0.18% | <1% | 通过 |
| 余弦相似度 | 0.99999818 | — | — |
| 文本输出匹配 | 完全一致 | — | 通过 |
| 总体结果 | — | — | 通过 |
环境
| 组件 | 版本 |
|---|
| PyTorch | 2.9.0 |
| torch_npu | 2.9.0.post1 |
| CANN | 8.5.1 |
| NPU | Ascend 910 (×2) |
| ONNX | 1.21.0 |
| onnx2torch | 1.5.15 |
文件
| 文件 | 描述 |
|---|
inference.py | NPU 推理脚本(主要交付物) |
benchmark.py | 精度与性能基准测试 |
benchmark_result.json | 基准测试结果(JSON 格式) |
benchmark.log | 基准测试运行日志 |
test_english.wav | 测试音频样本 |