z
zkx_/parakeet-tdt-0.6b-v3
模型介绍文件和版本Pull Requests讨论分析

Parakeet TDT 0.6B V3 — Ascend NPU 适配

模型信息

  • 模型名称: nvidia/parakeet-tdt-0.6b-v3
  • 模型架构: EncDecRNNTBPEModel(RNNT-TDT,608M 参数)
  • 原始框架: NeMo
  • 用途: 语音识别(ASR),支持时间戳输出
  • 权重格式: .nemo

环境

组件版本
NPUAscend 910B4
CANN8.5.1
PyTorch2.9.0
torch_npu✓
NeMo✓

目录结构

parakeet-tdt-0.6b-v3+ascend/
├── inference.py              # 单次推理脚本
├── accuracy_run.py           # 精度 & 性能验证(NPU vs CPU 对比)
├── accuracy_run_perf.py      # 纯性能基准测试
├── check_accuracy_run_perf.py # 多合一烟测试 + 结果校验
├── sample.wav                # 测试音频(7.4s 英文)
├── log.txt                   # 验证日志
└── README.md                 # 本文档

快速开始

环境检查

python3 check_accuracy_run_perf.py --dry-run

单文件推理

python3 inference.py sample.wav

带时间戳输出

python3 inference.py sample.wav --timestamps

精度验证(NPU vs CPU 对比)

python3 accuracy_run.py --audio sample.wav

性能基准测试

python3 accuracy_run_perf.py --audio sample.wav --runs 10

一键烟测试

python3 check_accuracy_run_perf.py --audio sample.wav

验证结果

精度

指标结果
NPU 转录✅ Well, I don't wish to see it any more, observed Phoebe, turning away her eyes...
CPU 转录✅ Well, I don't wish to see it any more, observed Phoebe, turning away her eyes...
精确匹配✅ 100%
CER0.0000
误差要求 (< 1%)✅ MET

结论: NPU 输出与 CPU 参考完全一致,精度误差远低于 1% 要求。

性能(Ascend 910B4)

指标值
音频长度7.4s
首次推理(含加载)19.47s
稳态平均延迟0.247s
稳态 RTFx30.1x
P90 延迟0.248s

适配说明

该模型的 Ascend NPU 适配遵循以下模式:

  1. 权重获取: 从 HuggingFace 下载 .nemo 文件(约 2.5GB)
  2. 模型加载: 使用 NeMo 的 ASRModel.restore_from() 加载
  3. 设备迁移: 调用 model.to('npu:0') 将模型移至 NPU
  4. 推理: 使用 model.transcribe() 进行语音识别
  5. 精度验证: 在 CPU 和 NPU 上分别运行推理,对比输出文本

该模型无需额外适配——NeMo 原生支持 NPU 推理,torch.npu 自动接管算子执行。

下载使用量0