panhg/parakeet-tdt-0.6b-v2-onnx
模型介绍文件和版本Pull Requests讨论分析

Parakeet-TDT-0.6B-v2(昇腾NPU适配版)

NVIDIA NeMo Parakeet-TDT-0.6B Conformer-Transducer语音识别模型,已适配华为昇腾NPU推理。

CPU(ONNX Runtime)NPU(昇腾910)
编码器延迟1.154秒0.188秒
总延迟109.95秒1.78秒
编码器加速比—6.13倍
总加速比—61.82倍
编码器精度—99.82%(相对误差0.18%)
文本匹配—通过

模型详情

  • 原始模型:eclipse005/parakeet-tdt-0.6b-v2-onnx
  • 架构:Conformer编码器 + TDT(截断解码Transformer)解码器
  • 任务:自动语音识别(ASR)—— 英语
  • 编码器:1024维Conformer,128维梅尔滤波器组输入,8倍下采样
  • 解码器:2层LSTM(640隐藏单元)+ 联合网络(1024+640→1030输出)
  • 词汇表:1025个SentencePiece风格令牌 + 空白符
  • 原始格式:ONNX(encoder-model.onnx + decoder_joint-model.onnx)
  • NPU适配:ONNX转PyTorch + torch_npu推理

快速开始

pip install torch torch_npu onnx onnxruntime onnx2torch kaldi-native-fbank soundfile numpy
python inference.py --audio input.wav --device npu

精度验证

指标数值阈值状态
编码器相对误差0.18%<1%通过
余弦相似度0.99999818——
文本输出匹配完全一致—通过
总体结果——通过

环境

组件版本
PyTorch2.9.0
torch_npu2.9.0.post1
CANN8.5.1
NPUAscend 910 (×2)
ONNX1.21.0
onnx2torch1.5.15

文件

文件描述
inference.pyNPU 推理脚本(主要交付物)
benchmark.py精度与性能基准测试
benchmark_result.json基准测试结果(JSON 格式)
benchmark.log基准测试运行日志
test_english.wav测试音频样本
下载使用量0