Qwen3-ForcedAligner-0.6B 是 Qwen3-ASR 系列中的强制对齐模型,支持对 11 种语言的音频进行字/词级别的时间戳预测(ASR 强制对齐)。本项目提供该模型在 昇腾 Ascend910 NPU 上的适配脚本、推理示例和 CPU/NPU 精度对比。
该模型本身依赖 Qwen3-ASR 框架进行推理。本项目基于官方 qwen-asr Python 包进行适配,无需修改模型代码即可在 NPU 上运行。
关键适配要点:
qwen_asr.Qwen3ForcedAligner.from_pretrained() 加载模型device_map="npu:0" 指定 NPU 设备align() 方法进行强制对齐推理pip install -i https://pypi.tuna.tsinghua.edu.cn/simple transformers>=4.57.0 torch soundfile numpy
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple qwen-asr nagisa librosa# CPU 推理
python inference.py --device cpu
# NPU 推理
python inference.py --device npupython inference.py --device npu --audio /path/to/audio.wav --text "Your transcript text." --language English使用 compare_cpu_npu.py 分别在 CPU 和 NPU 上运行同一模型,对比:
python compare_cpu_npu.py --text "Hello world." --language English| 指标 | 值 |
|---|---|
| 均方误差 (MSE) | 5.50e-07 |
| 最大绝对误差 (MaxAbs) | 5.43e-03 |
| 相对误差 | 0.013% |
| 余弦相似度 | 0.99999982 |
| Token 一致率 | 100.00% |
| 时间戳一致 | 2/2 (100.0%) |
NPU 与 CPU 推理结果误差为 0.013%,满足 < 1% 的精度要求。 模型输出的 logits 余弦相似度接近 1.0,Token 预测完全一致,时间戳完全相同。
| 设备 | 推理耗时 |
|---|---|
| CPU (Intel Xeon) | 2.45s |
| NPU (Ascend910) | 0.32s |
NPU 推理速度约为 CPU 的 7.7 倍。
