E
Eco-Tech/Qwen3-VL-8B-Instruct-w8a8sc-310-vllm
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-VL-8B-Instruct-w8a8sc-310-vllm

1. 基本信息

项目信息
原始模型名Qwen3-VL-8B-Instruct
原始模型链接Qwen/Qwen3-VL-8B-Instruct
msmodelslim 提交 IDd9b21712396ffb511af286fcb031a405bf4f01f1
msmodelslim 操作指引Readme
精度测试机型Atlas 300I DUO
精度测试平台docker vLLM 镜像
版本vLLM 26.0.0.poc

2 量化命令:

模型稀疏量化

python3 quant_qwen3vl.py \
    --model_path /path/to/qwen3_vl_float_weights \
    --save_directory /path/to/qwen3_vl_quantized_weights \
    --w_bit 4 \
    --a_bit 8 \
    --device_type npu \
    --anti_method m2 \
    --is_lowbit True \
    --fraction 0.01 \
    --use_sigma True \
    --torch_dtype fp16 \
    --trust_remote_code True

模型压缩

使用vLLM模型压缩脚本save_sharded_state_310.py

cd /usr/local/python3.11.10/lib/python3.11/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
# 编译weight_compression组件,其中${install_path}为CANN软件的安装目录。
bash build.sh ${install_path}/ascend-toolkit/latest
export LD_LIBRARY_PATH=/usr/local/python3.11.10/lib/:$LD_LIBRARY_PATH
python save_sharded_state_310.py \
    --model /path/to/qwen3_vl_quantized_weights \
    --tensor-parallel-size ${TP数} \
    --output /path/to/qwen3_vl_quantized_weights_used_on_310 \
    --enforce-eager \
    --dtype float16 \
    --quantization ascend \
    --max-model-len 16384 \
    --enable-compress \
    --compress-process-num 8

3 精度测试结果

模型名量化格式数据集测试精度 %浮点精度 %
Qwen3-VL-8B-Instruct-w8a8sc-310-vllmw8a8sctextvqa79.8480.02