Parakeet-TDT-0.6B-v2（昇腾NPU适配版）

NVIDIA NeMo Parakeet-TDT-0.6B Conformer-Transducer语音识别模型，已适配华为昇腾NPU推理。

	CPU（ONNX Runtime）	NPU（昇腾910）
编码器延迟	1.154秒	0.188秒
总延迟	109.95秒	1.78秒
编码器加速比	—	6.13倍
总加速比	—	61.82倍
编码器精度	—	99.82%（相对误差0.18%）
文本匹配	—	通过

模型详情

原始模型：eclipse005/parakeet-tdt-0.6b-v2-onnx
架构：Conformer编码器 + TDT（截断解码Transformer）解码器
任务：自动语音识别（ASR）—— 英语
编码器：1024维Conformer，128维梅尔滤波器组输入，8倍下采样
解码器：2层LSTM（640隐藏单元）+ 联合网络（1024+640→1030输出）
词汇表：1025个SentencePiece风格令牌 + 空白符
原始格式：ONNX（encoder-model.onnx + decoder_joint-model.onnx）
NPU适配：ONNX转PyTorch + torch_npu推理

快速开始

pip install torch torch_npu onnx onnxruntime onnx2torch kaldi-native-fbank soundfile numpy

python inference.py --audio input.wav --device npu

精度验证

指标	数值	阈值	状态
编码器相对误差	0.18%	<1%	通过
余弦相似度	0.99999818	—	—
文本输出匹配	完全一致	—	通过
总体结果	—	—	通过

环境

组件	版本
PyTorch	2.9.0
torch_npu	2.9.0.post1
CANN	8.5.1
NPU	Ascend 910 (×2)
ONNX	1.21.0
onnx2torch	1.5.15

文件

文件	描述
`inference.py`	NPU 推理脚本（主要交付物）
`benchmark.py`	精度与性能基准测试
`benchmark_result.json`	基准测试结果（JSON 格式）
`benchmark.log`	基准测试运行日志
`test_english.wav`	测试音频样本