| 属性 | 值 |
|---|---|
| 模型 | Jonibek21/Zehnova-Uzbek-STT |
| 架构 | WhisperForConditionalGeneration |
| 类型 | 编码器-解码器架构语音识别(语音转文本) |
| 语言 | 乌兹别克语 (uz) |
| d_model | 1024 |
| 编码器/解码器层数 | 24 / 24 |
| 词汇表大小 | 51865 |
| 注意力头数 | 16(多头注意力) |
| 参数量 | 764M |
| 特性 | 状态 | 说明 |
|---|---|---|
| 模型加载 | 支持 | 需要 --block-size 128 |
| ACL 图(PIECEWISE) | 支持 | 编码器-解码器自动回退 |
| 转录推理 | 支持 | 通过 OpenAI 兼容接口 /v1/audio/transcriptions |
| 分块预填充 | 不支持 | 编码器-解码器限制(上游问题) |
| 前缀缓存 | 不支持 | 编码器-解码器限制(上游问题) |
| 张量并行 | 支持 | |
| 流水线并行 | 不支持 | |
| LoRA | 支持 |
| 属性 | 值 |
|---|---|
| 昇腾硬件 | Atlas 800 A2 / A3 |
| 适配框架 | vLLM-Ascend |
| 支持任务 | 语音转录 |
症状:
ValueError: None of the kernel sizes [128] can divide physical block size 16 evenly根本原因:
vllm_ascend.attention.attention_v1.AscendAttentionBackend.get_supported_kernel_block_sizes()
返回 [128],但默认的 cache_config.block_size 为 16。BlockTable
构造函数要求 kernel_size 能整除 physical_block_size,当 128 > 16 时,此条件不满足,导致失败。
解决方法:
在部署模型时显式设置 --block-size 128:
vllm serve Jonibek21/Zehnova-Uzbek-STT \
--dtype bfloat16 \
--max-model-len 448 \
--block-size 128vllm serve Jonibek21/Zehnova-Uzbek-STT \
--dtype bfloat16 \
--max-model-len 448 \
--block-size 128export VLLM_WORKER_MULTIPROC_METHOD=spawn
vllm serve Jonibek21/Zehnova-Uzbek-STT \
--dtype bfloat16 \
--max-model-len 448 \
--block-size 128 \
--max-num-seqs 16 \
--tensor-parallel-size 1 \
--port 8000注意: 由于已知的分叉工作进程问题(上游 vLLM 警告),对于 Whisper,建议使用
VLLM_WORKER_MULTIPROC_METHOD=spawn。
curl -sf http://127.0.0.1:8000/v1/modelscurl -s http://127.0.0.1:8000/v1/audio/transcriptions \
-H "Content-Type: multipart/form-data" \
-F file=@/path/to/audio.wav \
-F model=Jonibek21/Zehnova-Uzbek-STT \
-F language=uz \
-F response_format=jsonvllm serve Jonibek21/Zehnova-Uzbek-STT \
--load-format dummy \
--dtype bfloat16 \
--max-model-len 448 \
--block-size 128| 算子类别 | 兼容性 | 说明 |
|---|---|---|
| 原生 PyTorch | 完全支持 | nn.Conv1d、nn.LayerNorm、nn.Linear、GELU |
| vLLM 注意力机制 | 完全支持 | Attention、CrossAttention、MMEncoderAttention |
| CUDA 内核 | 无需 | 模型代码中无 CUDA 依赖项 |
| Triton 内核 | 无需 | 模型代码中无 Triton 依赖项 |
该模型使用 Whisper 的强制解码器 ID 进行乌兹别克语转录:
[[1, 50259], [2, 50359], [3, 50363]]当转录请求中提供 language=uz 参数时,这些会由 vLLM Whisper 处理器自动处理。
如果启动或推理失败:
--block-size 128。--enforce-eager 以隔离图捕获问题。VLLM_WORKER_MULTIPROC_METHOD=spawn。