Zehnova-Uzbek-STT 在昇腾 NPU 上的部署

模型概述

属性	值
模型	`Jonibek21/Zehnova-Uzbek-STT`
架构	`WhisperForConditionalGeneration`
类型	编码器-解码器架构语音识别（语音转文本）
语言	乌兹别克语 (`uz`)
d_model	1024
编码器/解码器层数	24 / 24
词汇表大小	51865
注意力头数	16（多头注意力）
参数量	764M

昇腾 NPU 支持状态

特性	状态	说明
模型加载	支持	需要 `--block-size 128`
ACL 图（PIECEWISE）	支持	编码器-解码器自动回退
转录推理	支持	通过 OpenAI 兼容接口 `/v1/audio/transcriptions`
分块预填充	不支持	编码器-解码器限制（上游问题）
前缀缓存	不支持	编码器-解码器限制（上游问题）
张量并行	支持
流水线并行	不支持
LoRA	支持

支持的硬件与框架

属性	值
昇腾硬件	Atlas 800 A2 / A3
适配框架	vLLM-Ascend
支持任务	语音转录

已知问题

问题 #2262 — 块大小不匹配

症状：

ValueError: None of the kernel sizes [128] can divide physical block size 16 evenly

根本原因： vllm_ascend.attention.attention_v1.AscendAttentionBackend.get_supported_kernel_block_sizes() 返回 [128]，但默认的 cache_config.block_size 为 16。BlockTable 构造函数要求 kernel_size 能整除 physical_block_size，当 128 > 16 时，此条件不满足，导致失败。

解决方法： 在部署模型时显式设置 --block-size 128：

vllm serve Jonibek21/Zehnova-Uzbek-STT \
  --dtype bfloat16 \
  --max-model-len 448 \
  --block-size 128

服务器启动

最小化命令

vllm serve Jonibek21/Zehnova-Uzbek-STT \
  --dtype bfloat16 \
  --max-model-len 448 \
  --block-size 128

验证

1. 就绪检查

curl -sf http://127.0.0.1:8000/v1/models

2. 转录推理

curl -s http://127.0.0.1:8000/v1/audio/transcriptions \
  -H "Content-Type: multipart/form-data" \
  -F file=@/path/to/audio.wav \
  -F model=Jonibek21/Zehnova-Uzbek-STT \
  -F language=uz \
  -F response_format=json

3. 虚拟权重快速门控

vllm serve Jonibek21/Zehnova-Uzbek-STT \
  --load-format dummy \
  --dtype bfloat16 \
  --max-model-len 448 \
  --block-size 128

算子兼容性摘要

算子类别	兼容性	说明
原生 PyTorch	完全支持	`nn.Conv1d`、`nn.LayerNorm`、`nn.Linear`、`GELU`
vLLM 注意力机制	完全支持	`Attention`、`CrossAttention`、`MMEncoderAttention`
CUDA 内核	无需	模型代码中无 CUDA 依赖项
Triton 内核	无需	模型代码中无 Triton 依赖项

模型特定配置

该模型使用 Whisper 的强制解码器 ID 进行乌兹别克语转录：

[[1, 50259], [2, 50359], [3, 50363]]

当转录请求中提供 language=uz 参数时，这些会由 vLLM Whisper 处理器自动处理。

回退步骤

如果启动或推理失败：

确认已设置 --block-size 128。
添加 --enforce-eager 以隔离图捕获问题。
如果工作进程挂起，设置 VLLM_WORKER_MULTIPROC_METHOD=spawn。
验证模型目录中是否存在分词器和预处理器文件。

Zehnova-Uzbek-STT 在昇腾 NPU 上的部署

模型概述

属性	值
模型	`Jonibek21/Zehnova-Uzbek-STT`
架构	`WhisperForConditionalGeneration`
类型	编码器-解码器架构语音识别（语音转文本）
语言	乌兹别克语 (`uz`)
d_model	1024
编码器/解码器层数	24 / 24
词汇表大小	51865
注意力头数	16（多头注意力）
参数量	764M

昇腾 NPU 支持状态

特性	状态	说明
模型加载	支持	需要 `--block-size 128`
ACL 图（PIECEWISE）	支持	编码器-解码器自动回退
转录推理	支持	通过 OpenAI 兼容接口 `/v1/audio/transcriptions`
分块预填充	不支持	编码器-解码器限制（上游问题）
前缀缓存	不支持	编码器-解码器限制（上游问题）
张量并行	支持
流水线并行	不支持
LoRA	支持

支持的硬件与框架

属性	值
昇腾硬件	Atlas 800 A2 / A3
适配框架	vLLM-Ascend
支持任务	语音转录

已知问题

问题 #2262 — 块大小不匹配

症状：

ValueError: None of the kernel sizes [128] can divide physical block size 16 evenly

解决方法： 在部署模型时显式设置 --block-size 128：

vllm serve Jonibek21/Zehnova-Uzbek-STT \
  --dtype bfloat16 \
  --max-model-len 448 \
  --block-size 128

服务器启动

最小化命令

vllm serve Jonibek21/Zehnova-Uzbek-STT \
  --dtype bfloat16 \
  --max-model-len 448 \
  --block-size 128

验证

1. 就绪检查

curl -sf http://127.0.0.1:8000/v1/models

2. 转录推理

curl -s http://127.0.0.1:8000/v1/audio/transcriptions \
  -H "Content-Type: multipart/form-data" \
  -F file=@/path/to/audio.wav \
  -F model=Jonibek21/Zehnova-Uzbek-STT \
  -F language=uz \
  -F response_format=json

3. 虚拟权重快速门控

vllm serve Jonibek21/Zehnova-Uzbek-STT \
  --load-format dummy \
  --dtype bfloat16 \
  --max-model-len 448 \
  --block-size 128

算子兼容性摘要

算子类别	兼容性	说明
原生 PyTorch	完全支持	`nn.Conv1d`、`nn.LayerNorm`、`nn.Linear`、`GELU`
vLLM 注意力机制	完全支持	`Attention`、`CrossAttention`、`MMEncoderAttention`
CUDA 内核	无需	模型代码中无 CUDA 依赖项
Triton 内核	无需	模型代码中无 Triton 依赖项

模型特定配置

该模型使用 Whisper 的强制解码器 ID 进行乌兹别克语转录：

[[1, 50259], [2, 50359], [3, 50363]]

当转录请求中提供 language=uz 参数时，这些会由 vLLM Whisper 处理器自动处理。

回退步骤

如果启动或推理失败：

确认已设置 --block-size 128。
添加 --enforce-eager 以隔离图捕获问题。
如果工作进程挂起，设置 VLLM_WORKER_MULTIPROC_METHOD=spawn。
验证模型目录中是否存在分词器和预处理器文件。

Zehnova-Uzbek-STT 在昇腾 NPU 上的部署

模型概述

昇腾 NPU 支持状态

支持的硬件与框架

已知问题

问题 #2262 — 块大小不匹配

服务器启动

最小化命令

推荐命令（生产环境）

验证

1. 就绪检查

2. 转录推理

3. 虚拟权重快速门控

算子兼容性摘要

模型特定配置

回退步骤

Zehnova-Uzbek-STT 在昇腾 NPU 上的部署

模型概述

昇腾 NPU 支持状态

支持的硬件与框架

已知问题

问题 #2262 — 块大小不匹配

服务器启动

最小化命令

推荐命令（生产环境）

验证

1. 就绪检查

2. 转录推理

3. 虚拟权重快速门控

算子兼容性摘要

模型特定配置

回退步骤