iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch NPU 适配

模型信息

模型名: iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
任务类型: 自动语音识别
模型架构: FunASR Paraformer
模型来源: ModelScope

环境信息

NPU: Ascend910
CANN: 8.5.1
Python: 3.11
torch_npu: 可用
NPU 设备: npu:0 (Ascend910)

ModelScope 下载说明

使用 ModelScope 的 snapshot_download 从本地缓存加载模型，而非直接从 HuggingFace 下载。

from modelscope import snapshot_download
model_dir = snapshot_download("iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch")

模型本地路径：~/.cache/modelscope/hub/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

音频预处理说明

输入格式：WAV
采样率：16kHz
声道：单声道
测试音频：assets/test.wav，时长约 5.55 秒
使用 librosa.load(wav_path, sr=16000, mono=True) 读取并预处理

NPU 推理命令

python inference.py

依赖安装：

pip install -r requirements.txt

NPU 转写文本

欢迎大家来体验达摩院推出的语音识别模型

CPU-NPU 精度一致性结果

指标	数值
max_abs_error	0.000296
mean_abs_error	0.000003
relative_error	0.018596%
cosine_similarity	1.000000
threshold	1.0%
result	PASS

性能测试结果

指标	数值
平均延迟（毫秒）	481.08
最小延迟（毫秒）	477.04
最大延迟（毫秒）	489.74
p50 延迟（毫秒）	479.88
p90 延迟（毫秒）	486.13
p95 延迟（毫秒）	487.94
音频时长（秒）	5.55
实时率	0.0867

工程结构

.
├── assets/
│   └── test.wav
├── logs/
├── screenshots/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

运行说明

依次执行：

python inference.py
python eval_consistency.py
python benchmark.py

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch NPU 适配

模型信息

模型名: iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch
任务类型: 自动语音识别
模型架构: FunASR Paraformer
模型来源: ModelScope

环境信息

NPU: Ascend910
CANN: 8.5.1
Python: 3.11
torch_npu: 可用
NPU 设备: npu:0 (Ascend910)

ModelScope 下载说明

使用 ModelScope 的 snapshot_download 从本地缓存加载模型，而非直接从 HuggingFace 下载。

from modelscope import snapshot_download
model_dir = snapshot_download("iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch")

模型本地路径：~/.cache/modelscope/hub/models/iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch

音频预处理说明

输入格式：WAV
采样率：16kHz
声道：单声道
测试音频：assets/test.wav，时长约 5.55 秒
使用 librosa.load(wav_path, sr=16000, mono=True) 读取并预处理

NPU 推理命令

python inference.py

依赖安装：

pip install -r requirements.txt

NPU 转写文本

欢迎大家来体验达摩院推出的语音识别模型

CPU-NPU 精度一致性结果

指标	数值
max_abs_error	0.000296
mean_abs_error	0.000003
relative_error	0.018596%
cosine_similarity	1.000000
threshold	1.0%
result	PASS

性能测试结果

指标	数值
平均延迟（毫秒）	481.08
最小延迟（毫秒）	477.04
最大延迟（毫秒）	489.74
p50 延迟（毫秒）	479.88
p90 延迟（毫秒）	486.13
p95 延迟（毫秒）	487.94
音频时长（秒）	5.55
实时率	0.0867

工程结构

.
├── assets/
│   └── test.wav
├── logs/
├── screenshots/
├── model_utils.py
├── inference.py
├── eval_consistency.py
├── benchmark.py
├── requirements.txt
├── .gitignore
└── README.md

运行说明

依次执行：

python inference.py
python eval_consistency.py
python benchmark.py

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch NPU 适配

模型信息

环境信息

ModelScope 下载说明

音频预处理说明

NPU 推理命令

NPU 转写文本

CPU-NPU 精度一致性结果

性能测试结果

工程结构

运行说明

标签

iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch NPU 适配

模型信息

环境信息

ModelScope 下载说明

音频预处理说明

NPU 推理命令

NPU 转写文本

CPU-NPU 精度一致性结果

性能测试结果

工程结构

运行说明

标签