MiMo-V2.5 适配 — 补丁应用与运行手册

1. 简介

本目录提供 MiMo-V2.5 适配补丁：

0001-vllm-MiMo-V2.5-VL-and-runtime.patch：面向 /vllm-workspace/vllm
0002-vllm-ascend-MiMo-V2.5-runtime-support.patch：面向 /vllm-workspace/vllm-ascend

本补丁在各部署形态均支持 1M 上下文。在上一版本基础上修复v2.5 W8A8量化部署VL模式的效果问题。

补丁应用后兼容以下形态：

模型	形态	量化参数	checkpoint_tp_size
MiMo-V2.5	文本 BF16/FP8/W8A8	`MiMoV2ForCausalLM`	`checkpoint_tp_size=4`
MiMo-V2.5	单图 VL BF16/FP8/W8A8	`MiMoV2ForConditionalGeneration`	`checkpoint_tp_size=4`

所有形态推荐开启 MTP 推测解码 + EP + FDO（FULL_DECODE_ONLY）graph。

说明：

MiMo-V2.5：48 层、64 个注意力头、256 个路由专家、DiffKV K=192/V=128、1 层 MTP
本手册在 16 × Ascend910 A3（每卡 64 GB HBM）上验证，理论也支持相同卡数的Ascend910 A2（每卡 64 GB HBM）部署

2. 补丁应用

基础镜像：

quay.io/ascend/vllm-ascend:v0.19.1rc1-a3

应用补丁：

PATCH_DIR=/path/to/this/deliverable
VLLM_REPO=/vllm-workspace/vllm
VLLM_ASCEND_REPO=/vllm-workspace/vllm-ascend

cd "$VLLM_REPO"
git apply --check "$PATCH_DIR/0001-vllm-MiMo-V2.5-VL-and-runtime.patch"
git apply "$PATCH_DIR/0001-vllm-MiMo-V2.5-VL-and-runtime.patch"

cd "$VLLM_ASCEND_REPO"
git apply --check "$PATCH_DIR/0002-vllm-ascend-MiMo-V2.5-runtime-support.patch"
git apply "$PATCH_DIR/0002-vllm-ascend-MiMo-V2.5-runtime-support.patch"

补丁基线 commit：

vllm: b1388b1
vllm-ascend: da421afa（v0.19.1rc1）

说明：

理论支持相同版本a2镜像

3. 权重准备

形态	说明
FP8 原生	可直接部署（在线 dequant部署时间较长），建议离线转换为BF16后部署
BF16	离线转换产物或自备，无 quantization_config
W4A8/W8A8	msmodelslim 量化产物，含 quant_model_description.json

3.1 ModelScope仓库下载模型

形态	地址
官方FP8	https://www.modelscope.cn/models/XiaomiMiMo/MiMo-V2.5
FP16权重	https://www.modelscope.cn/models/solinliu/MiMo-V2.5-BF16
W8A8量化	https://www.modelscope.cn/models/solinliu/MiMo-V2.5-W8A8

3.2 BF16 离线转换（FP8 → BF16）

python3 dequant/dequant_fp8_to_bf16_streaming.py \
    --input-dir /path/to/FP8-checkpoint \
    --output-dir /path/to/BF16-output \
    --tp-size 8 \
    --block-size 128 128 \
    --max-shard-size 5

参数说明：

参数	说明
`--input-dir`	源 FP8 模型目录
`--output-dir`	目标 BF16 模型目录
`--tp-size`	原始量化布局使用的张量并行大小（V2.5-Pro 为 8，V2.5 为 4）
`--block-size`	FP8 block 量化块大小
`--max-shard-size`	输出 safetensors 分片的近似大小（GB）

脚本支持断点续跑，中断后使用相同命令重新执行即可。详见 dequant/README.md。

4. 启动命令

4.1 MiMo-V2.5 单机 BF16 TP16 + EP（推荐）

vllm serve <weight-dir> \
  --served-model-name mimo-v2.5 \
  --trust-remote-code \
  --tensor-parallel-size 16 \
  --max-model-len 1048576 \
  --max-num-seqs 4 \
  --gpu-memory-utilization 0.9 \
  --dtype bfloat16 \
  --block-size 128 \
  --reasoning-parser mimo_v2 \
  --enable-auto-tool-choice \
  --tool-call-parser mimo_v2 \
  --hf-overrides '{"checkpoint_tp_size":4}' \
  --speculative-config '{"method":"mimo_v2_mtp","num_speculative_tokens":1}' \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --enable-expert-parallel \
  --port 8000

# W8A8 额外加：--quantization ascend
# max-num-seqs可根据实际业务调整

4.2 MiMo-V2.5 W8A8 单图 VL 形态，8 卡 TP8，1M 上下文

vllm serve <weight-dir> \
  --host 0.0.0.0 \
  --port 8002 \
  --served-model-name mimo-v2.5 \
  --trust-remote-code \
  --tensor-parallel-size 8 \
  --max-model-len 1048576 \
  --max-num-seqs 16 \
  --gpu-memory-utilization 0.95 \
  --dtype bfloat16 \
  --block-size 128 \
  --quantization ascend \
  --reasoning-parser mimo_v2 \
  --enable-auto-tool-choice \
  --tool-call-parser mimo_v2 \
  --hf-overrides '{"architectures":["MiMoV2ForConditionalGeneration"],"checkpoint_tp_size":4}' \
  --limit-mm-per-prompt '{"image":1,"video":0}' \
  --mm-processor-kwargs '{"max_pixels":12845056}' \
  --speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'

4.3 MiMo-V2.5 单机 W8A8 DP2 + TP8 + EP

vllm serve <weight-dir> \
  --served-model-name mimo-v2.5 \
  --trust-remote-code \
  --tensor-parallel-size 8 \
  --data-parallel-size 2 \
  --max-model-len 1048576 \
  --max-num-seqs 4 \
  --gpu-memory-utilization 0.9 \
  --dtype bfloat16 \
  --block-size 128 \
  --reasoning-parser mimo_v2 \
  --enable-auto-tool-choice \
  --tool-call-parser mimo_v2 \
  --hf-overrides '{"checkpoint_tp_size":4}' \
  --speculative-config '{"method":"mimo_v2_mtp","num_speculative_tokens":1}' \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --enable-expert-parallel \
  --port 8000

# W8A8 额外加：--quantization ascend
# W8A8支持8卡部署，同时支持1M上下文

5. 服务就绪测试

5.1 基础推理

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5",
    "messages": [{"role": "user", "content": "1+1=?"}],
    "max_tokens": 256, "temperature": 0
  }'

5.2 关闭思考

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5",
    "messages": [{"role": "user", "content": "What is 123+456?"}],
    "max_tokens": 500, "temperature": 0,
    "chat_template_kwargs": {"enable_thinking": false}
  }'

5.3 函数调用

curl -s http://127.0.0.1:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5",
    "messages": [{"role": "user", "content": "What is the weather in Tokyo?"}],
    "tools": [{"type":"function","function":{"name":"get_weather","description":"Get weather","parameters":{"type":"object","properties":{"city":{"type":"string"}},"required":["city"]}}}],
    "max_tokens": 200, "temperature": 0
  }'

5.4 图片 VL 形态

请求格式使用 OpenAI-compatible image_url，图片可转为 data:image/png;base64,... 后发送：

{
  "model": "MiMo-V2.5",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "请只识别图片中的中文文字，逐行输出。"},
      {"type": "image_url", "image_url": {"url": "data:image/png;base64,<BASE64>"}}
    ]
  }],
  "temperature": 0,
  "max_tokens": 512,
  "chat_template_kwargs": {"enable_thinking": false}
}

6. 注意事项

V2.5 BF16/W8A8 必须传 checkpoint_tp_size=4：否则 QKV 解交织会使用默认值 8 导致输出乱码
MTP num_speculative_tokens 推荐值为 2：实测吞吐最优（88.3 tok/s），相比无 MTP 提升 77%
Hybrid KV Cache 自动生效：无需额外参数，补丁应用后 SWA 层自动启用 block reclamation
FDO 首次请求较慢：graph capture 预热约 30-60s，后续请求正常
v2.5 推理调用建议增加 "repetition_penalty": 1.05（或者部署前修改 generation_config.json，增加该参数），用于缓解模型过度思考问题，v2.5-pro 不用增加

7. 文件清单

.
├── README.md
├── 0001-vllm-MiMo-V2.5-VL-and-runtime.patch
├── 0002-vllm-ascend-MiMo-V2.5-runtime-support.patch
└── dequant/
    ├── README.md
    └── dequant_fp8_to_bf16_streaming.py