1. 简介
- 模型来源:iic/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch
- 架构:Conformer 编码器 + Transformer 解码器(NAT)
- 参数量:33,464,832
- 任务:语音识别(Automatic Speech Recognition)
- 适配状态:成功
- 适配时间:2026-05-17
2. 验证环境
| 组件 | 版本 |
|---|
| torch | 2.9.0 |
| torch-npu | 2.9.0.post1 |
| CANN | 8.5.1 |
| NPU | Ascend 910B4 |
3. 精度评测
| 指标 | 数值 |
|---|
| 余弦相似度 | 1.000000 |
| 最大绝对误差 | 0.000504 |
| 是否满足要求 | 是(余弦相似度 > 0.999) |
4. 性能
| 指标 | 数值 |
|---|
| 平均延迟 | 16.16 毫秒 |
| 输出形状 | [1, 24, 256] |
5. 适配说明
基于 checkpoint 重建 Conformer 编码器结构,包含 Conv2d 子采样层(步长=2)和 12 层 Conformer 块,每层包含相对位置自注意力、Macaron 前馈网络及卷积模块。输入为随机音频特征张量 (1, 100, 80)。
6. 推理输出证据
Model: iic/speech_conformer_asr_nat-zh-cn-16k-aishell1-vocab4234-pytorch
Output shape: [1, 24, 256]
Latency: 16.16ms
Cosine Similarity: 1.000000
Max Abs Error: 0.000504
7. CPU 与 NPU 精度对比
| 指标 | CPU | NPU | 差异 |
|---|
| 余弦相似度 | 1.0 | 1.000000 | 0.0000% |
| 最大绝对误差 | - | 0.000504 | - |