VibeVoice-ASR-NPU
VibeVoice-ASR (microsoft/VibeVoice-ASR) 昇腾 NPU 适配仓库。包含完整的 GPU→NPU 兼容性补丁、验证脚本、运行手册及精度报告。
模型信息
| 项目 | 内容 |
|---|
| 原始模型 | microsoft/VibeVoice-ASR |
| 模型类型 | Audio LM (Qwen2 decoder + VAE audio encoders) |
| 参数量 | 8.67B |
| 目标平台 | Huawei Ascend NPU (Atlas 910) |
| CANN 版本 | 8.5.1 |
| torch_npu | 2.9.0 |
| vLLM | 0.18.0 + vllm_ascend |
适配状态
| 验证项 | 状态 |
|---|
| Core Model Loading | PASS |
| Real Weight Loading | PASS |
| Forward Inference (NPU) | PASS |
| vLLM Service (dummy) | PASS |
| vLLM Service (real-weight) | PASS |
| Audio Inference (vLLM) | PASS |
| 精度 (概率差异) | PASS (<1%) |
| Top-1 Token 一致率 | 100% |
快速启动
# 启动 vLLM 服务
python3 vibevoice_npu_adapter.py serve \
/path/to/VibeVoice-ASR \
--dtype bfloat16 \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--port 8000 \
--trust-remote-code \
--allowed-local-media-path /tmp/vibevoice/demo
文件说明
| 文件 | 说明 |
|---|
vibevoice_npu_adapter.py | vLLM 服务启动适配脚本 |
npu_compat.py | 设备检测兼容层 (NPU/CUDA/CPU fallback) |
patches/vibevoice_npu_compat.patch | GPU→NPU 兼容性补丁(含文档头) |
verify_npu.sh | 一键验证脚本(环境/forward/服务/推理) |
runbook.md | 中文运行手册(启动命令、curl 示例、排查) |
VibeVoice-ASR-NPU-Adaptation-Report.md | 完整适配报告 |
CodeReview_Results_2026-05-21.md | 标准审查报告 |
核心修改
vllm_plugin/model.py: NPU 设备优先检测;vLLM 0.18.0 多模态 API 适配;空 multimodal_embeddings 保护
vllm_plugin/scripts/start_server.py: ASCEND_RT_VISIBLE_DEVICES 替换 CUDA_VISIBLE_DEVICES;设备计数通用化
License
MIT