we166488/VibeVoice-ASR-NPU
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

VibeVoice-ASR-NPU

VibeVoice-ASR (microsoft/VibeVoice-ASR) 昇腾 NPU 适配仓库。包含完整的 GPU→NPU 兼容性补丁、验证脚本、运行手册及精度报告。

模型信息

项目内容
原始模型microsoft/VibeVoice-ASR
模型类型Audio LM (Qwen2 decoder + VAE audio encoders)
参数量8.67B
目标平台Huawei Ascend NPU (Atlas 910)
CANN 版本8.5.1
torch_npu2.9.0
vLLM0.18.0 + vllm_ascend

适配状态

验证项状态
Core Model LoadingPASS
Real Weight LoadingPASS
Forward Inference (NPU)PASS
vLLM Service (dummy)PASS
vLLM Service (real-weight)PASS
Audio Inference (vLLM)PASS
精度 (概率差异)PASS (<1%)
Top-1 Token 一致率100%

快速启动

# 启动 vLLM 服务
python3 vibevoice_npu_adapter.py serve \
  /path/to/VibeVoice-ASR \
  --dtype bfloat16 \
  --tensor-parallel-size 1 \
  --max-model-len 32768 \
  --port 8000 \
  --trust-remote-code \
  --allowed-local-media-path /tmp/vibevoice/demo

文件说明

文件说明
vibevoice_npu_adapter.pyvLLM 服务启动适配脚本
npu_compat.py设备检测兼容层 (NPU/CUDA/CPU fallback)
patches/vibevoice_npu_compat.patchGPU→NPU 兼容性补丁(含文档头)
verify_npu.sh一键验证脚本(环境/forward/服务/推理)
runbook.md中文运行手册(启动命令、curl 示例、排查)
VibeVoice-ASR-NPU-Adaptation-Report.md完整适配报告
CodeReview_Results_2026-05-21.md标准审查报告

核心修改

  • vllm_plugin/model.py: NPU 设备优先检测;vLLM 0.18.0 多模态 API 适配;空 multimodal_embeddings 保护
  • vllm_plugin/scripts/start_server.py: ASCEND_RT_VISIBLE_DEVICES 替换 CUDA_VISIBLE_DEVICES;设备计数通用化

License

MIT