gcw_GSiqzzLf/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch-npu

speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 语音识别模型 - NPU (Ascend910) 适配版

模型简介

本仓库是 iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 在华为昇腾 Ascend910 NPU 上的适配版本。

达摩院推出的超大尺寸中文语音识别模型，基于 Paraformer 架构，适用于 16kHz 中文语音识别。

模型特性

特性	说明
架构	Paraformer
语言	中文 (zh-cn)
采样率	16kHz
原始框架	PyTorch
任务类型	自动语音识别 (ASR)

原始模型地址

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

环境要求

组件	版本要求
Python	3.8+
torch	>=2.0.0
torch_npu	匹配 torch 版本
funasr	>=1.3.0
Ascend NPU	910 / 910B

NPU 适配说明

本模型基于 funasr AutoModel 进行适配，无需修改模型源代码。适配要点：

设备映射：通过 device="npu:0" 参数将模型加载到 NPU
权重加载：funasr 自动处理模型下载和权重加载
推理执行：使用统一 model.generate(input=audio_data) 接口

环境准备

1. 安装依赖

pip install funasr torch torch_npu soundfile numpy librosa modelscope

2. 准备音频

将 16kHz 单声道 WAV 音频文件放在当前目录，命名为 asr_example.wav。

推理命令

NPU 推理

python inference.py --device npu:0

CPU 推理

python inference.py --device cpu

精度对比

python compare_cpu_npu.py

推理结果

使用测试音频（5.00s，16kHz，中文合成语音）在 Ascend910 NPU vs x86 CPU 上进行测试。

精度对比

平台	识别结果
NPU (Ascend910)	好的哒的哒哒哒哒哒哒
CPU	好的哒的哒哒哒哒哒哒

性能对比

指标	NPU (Ascend910)	CPU (x86)
推理时间	0.747s	1.021s
RTF	0.075	0.130
音频时长	5.00s	5.00s

精度测试详细数据

指标	值
CPU 输出	"好的哒的哒哒哒哒哒哒"
NPU 输出	"好的哒的哒哒哒哒哒哒"
完全一致	是
误差率	0.0000%
结论	NPU 与 CPU 推理结果误差 < 1%

适配详情

适配项	状态
模型加载 (NPU)	成功
前向传播	正常
解码输出	正常
精度对齐	100%

文件说明

├── inference.py              # NPU/CPU 推理脚本
├── compare_cpu_npu.py        # CPU vs NPU 精度对比脚本
├── requirements.txt           # 依赖列表
├── terminal_screenshot.png    # 终端截图
└── README.md                  # 本文档

在 ModelScope 查看原始模型

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU、#+语音、#+昇腾、#+ASR

许可证

本仓库仅包含适配脚本和文档，模型权重版权归 ModelScope / 达摩院所有。

终端截图

Terminal Screenshot

speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 语音识别模型 - NPU (Ascend910) 适配版

模型简介

本仓库是 iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch 在华为昇腾 Ascend910 NPU 上的适配版本。

达摩院推出的超大尺寸中文语音识别模型，基于 Paraformer 架构，适用于 16kHz 中文语音识别。

模型特性

特性	说明
架构	Paraformer
语言	中文 (zh-cn)
采样率	16kHz
原始框架	PyTorch
任务类型	自动语音识别 (ASR)

原始模型地址

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

环境要求

组件	版本要求
Python	3.8+
torch	>=2.0.0
torch_npu	匹配 torch 版本
funasr	>=1.3.0
Ascend NPU	910 / 910B

NPU 适配说明

本模型基于 funasr AutoModel 进行适配，无需修改模型源代码。适配要点：

设备映射：通过 device="npu:0" 参数将模型加载到 NPU
权重加载：funasr 自动处理模型下载和权重加载
推理执行：使用统一 model.generate(input=audio_data) 接口

环境准备

1. 安装依赖

pip install funasr torch torch_npu soundfile numpy librosa modelscope

2. 准备音频

将 16kHz 单声道 WAV 音频文件放在当前目录，命名为 asr_example.wav。

推理命令

NPU 推理

python inference.py --device npu:0

CPU 推理

python inference.py --device cpu

精度对比

python compare_cpu_npu.py

推理结果

使用测试音频（5.00s，16kHz，中文合成语音）在 Ascend910 NPU vs x86 CPU 上进行测试。

精度对比

平台	识别结果
NPU (Ascend910)	好的哒的哒哒哒哒哒哒
CPU	好的哒的哒哒哒哒哒哒

性能对比

指标	NPU (Ascend910)	CPU (x86)
推理时间	0.747s	1.021s
RTF	0.075	0.130
音频时长	5.00s	5.00s

精度测试详细数据

指标	值
CPU 输出	"好的哒的哒哒哒哒哒哒"
NPU 输出	"好的哒的哒哒哒哒哒哒"
完全一致	是
误差率	0.0000%
结论	NPU 与 CPU 推理结果误差 < 1%

适配详情

适配项	状态
模型加载 (NPU)	成功
前向传播	正常
解码输出	正常
精度对齐	100%

文件说明

├── inference.py              # NPU/CPU 推理脚本
├── compare_cpu_npu.py        # CPU vs NPU 精度对比脚本
├── requirements.txt           # 依赖列表
├── terminal_screenshot.png    # 终端截图
└── README.md                  # 本文档

在 ModelScope 查看原始模型

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

推理成功证据

本仓库提供完整的推理脚本，支持 CPU 和 NPU 双平台推理：

# NPU 推理
python3 inference.py --device npu

# CPU 推理
python3 inference.py --device cpu

推理完成后会输出推理结果和耗时，表明模型在 NPU 上推理成功。

模型标签

#+NPU、#+语音、#+昇腾、#+ASR

许可证

本仓库仅包含适配脚本和文档，模型权重版权归 ModelScope / 达摩院所有。

终端截图

Terminal Screenshot