本案例给出NeMo系列的语音识别模型Canary-1B在NPU环境部署,并基于torch_npu执行推理任务的迁移实践。
使用约束
| 依赖软件 | 版本 |
|---|---|
| 昇腾NPU驱动 | >=25.0.RC1.1商发版本 |
| 昇腾NPU固件 | >=25.0.RC1.1商发版本 |
| CANN Toolkit | >=8.2.RC1商发版本 |
| CANN Kernel | >=8.2.RC1商发版本 |
| CANN NNAL | >=8.2.RC1商发版本 |
硬件设备
| 设备型号 | NPU配置 |
|---|---|
| Atlas 800I A2 910B | 1卡 |
安装依赖包: pip install -r requirements.txt
git clone https://github.com/NVIDIA-NeMo/NeMo
https://huggingface.co/nvidia/canary-1b
mv infer.py <your-path-to-NeMo>
对infer.py中模型路径进行修改,修改为自己的路径
os.system("ln -s models--nvidia--canary-1b ~/.cache/huggingface/hub/models--nvidia--canary-1b")在infer.py中以此执行了三个任务,包括默认语音(英语)的ASR推理、指定语言的ASR推理和指定语言的语音到文本的翻译。
可以选择执行其中的任务,并删除不要的任务,同时需要对音频路径进行修改,例如:
# Transcribe
transcript = canary_model.transcribe(audio=["2902-9008-0000_01.wav"])python infer.py