Ascend-SACT/MiniCPM-V4.6
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

MiniCPM-V-4.6 补丁应用与运行手册

1. 简介

本目录提供的是 MiniCPM-V-4.6 在 vLLM-Ascend 上运行所需的 patch 交付物:

  • vllm-minicpmv46.patch
  • vllm-ascend-minicpmv46.patch

其中:

  • vllm-minicpmv46.patch
    • 面向 vllm
  • vllm-ascend-minicpmv46.patch
    • 面向 vllm-ascend

2. 补丁应用

基础镜像:

  • quay.io/ascend/vllm-ascend:v0.19.1rc1

环境说明:

  • 部署 MiniCPM-V-4.6 前,请将 transformers 升级到 5.7.0

transformers升级命令:

pip install --upgrade "transformers[torch]==5.7.0"

准备变量:

PATCH_DIR=/path/to/minicpm_v4.5/patch
VLLM_REPO=/vllm-workspace/vllm
VLLM_ASCEND_REPO=/vllm-workspace/vllm-ascend
MODEL_PATH=/path/to/MiniCPM-V-4.6

应用 vllm 补丁:

cd "$VLLM_REPO"
git apply --check "$PATCH_DIR/vllm-minicpmv46.patch"
git apply "$PATCH_DIR/vllm-minicpmv46.patch"

应用 vllm-ascend 补丁:

cd "$VLLM_ASCEND_REPO"
git apply --check "$PATCH_DIR/vllm-ascend-minicpmv46.patch"
git apply "$PATCH_DIR/vllm-ascend-minicpmv46.patch"

如需回退已应用补丁,可执行:

cd "$VLLM_ASCEND_REPO"
git apply -R --check "$PATCH_DIR/vllm-ascend-minicpmv46.patch"
git apply -R "$PATCH_DIR/vllm-ascend-minicpmv46.patch"

cd "$VLLM_REPO"
git apply -R --check "$PATCH_DIR/vllm-minicpmv46.patch"
git apply -R "$PATCH_DIR/vllm-minicpmv46.patch"

3. 服务启动

3.1 MiniCPM-V-4.6 单逻辑 NPU

cd /workspace
ASCEND_RT_VISIBLE_DEVICES=0 HCCL_OP_EXPANSION_MODE=AIV \
vllm serve "$MODEL_PATH" \
  --served-model-name MiniCPM-V-4.6 \
  --trust-remote-code \
  --dtype bfloat16 \
  --limit-mm-per-prompt '{"image":4,"video":1}' \
  --port 8000 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'

--limit-mm-per-prompt '{"image":4,"video":1}' 表示单个 prompt 最多允许 4 张图片和 1 个视频。实际上限仍受上下文长度、processor token budget 和显存约束。

4. 基本验证

服务健康检查:

curl -sS http://127.0.0.1:8000/health -w '\nHTTP %{http_code}\n'

预期返回 HTTP 200。

服务 ready 检查:

curl -sS http://127.0.0.1:8000/v1/models

预期返回中应包含:

  • id: MiniCPM-V-4.6
  • root: 当前 MODEL_PATH
  • max_model_len: 模型默认上下文长度

文本生成验证:

curl -sS http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model":"MiniCPM-V-4.6",
    "messages":[
      {"role":"user","content":"用中文简短回答:2+3等于几?"}
    ],
    "temperature":0,
    "max_tokens":32
  }'

5. 注意事项

  • 启动命令中的 --trust-remote-code 需要保留,否则模型侧自定义配置和 processor 可能无法加载。
  • 5 图输入在 image:4 限制下会返回 HTTP 400;当前错误路径可能在服务端日志中打印 traceback,但客户端限制生效。
  • OCR 和图像推理类请求对 prompt 和图片清晰度敏感;基础验收建议使用高对比、低歧义输入。