d
dingdang666/mms-300m-1130-forced-aligner-NPU
模型介绍文件和版本Pull Requests讨论分析

mms-300m-1130-forced-aligner on Ascend NPU

1. 简介

本文档记录 mms-300m-1130-forced-aligner(MMS Wav2Vec2 强制对齐模型)在昇腾 NPU(Ascend 910B3)环境的适配部署与精度验证结果。

该模型基于 Wav2Vec2 架构,参数量约 315M,用于语音到文本的强制对齐(CTC 对齐),支持 31 类 CTC token。本项目完成该模型在昇腾 NPU 上的推理适配,验证 NPU 与 CPU 结果的精度误差 < 1%。

相关地址:

  • 权重下载地址(HuggingFace):https://huggingface.co/facebook/mms-300m-1130-forced-aligner
  • 适配仓库:https://gitcode.com/dingdang666/mms-300m-1130-forced-aligner-NPU

2. 验证环境

组件版本
Python3.11.x
PyTorch2.10.0+cpu
torch_npu2.10.0
transformers5.8.1
CANN8.5.1
NPU 硬件Ascend 910B3

3. 模型信息

项目值
模型架构Wav2Vec2ForCTC
参数量~315M
特征维度1024
Layers24
Attention Heads16
采样率16kHz
输出类别31 (CTC tokens)
权重格式safetensors
框架PyTorch (transformers)
许可证Other

4. Conda 环境安装

conda create -n mms-align python=3.11 -y
conda activate mms-align
pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.11.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install torch_npu==2.10.0 --index-url https://repo.huaweicloud.com/repository/pypi/simple/
pip install transformers safetensors --index-url https://repo.huaweicloud.com/repository/pypi/simple/

5. 推理执行

python3 inference.py --model_path /path/to/model --audio_path /path/to/audio.wav
python3 inference.py ... --device cpu
python3 benchmark.py --model_path /path/to/model

6. 参数说明

脚本参数默认值
inference.py--devicenpu:0
benchmark.py--npu_devicenpu:0 / --num_warmup 3

7. 精度评测结果

输出相对误差余弦相似度最大误差平均误差
logits0.092856%0.9999995828——
指标实测阈值状态
相对误差0.093%< 1%PASS
余弦相似度0.9999996> 0.99PASS

8. 性能数据

操作耗时
CPU(FP32)2.71s
NPU(FP32,3轮预热)0.03s
加速比84.76x

9. 注意事项

  1. 使用 AutoModelForCTC + AutoFeatureExtractor 标准 transformers 接口。
  2. 输入音频自动重采样到 16kHz。
  3. 输出 logits 可直接用于 CTC 解码获得时间对齐结果。
下载使用量0