Qwen3-VL-8B-Instruct-w8a8sc-310-vllm
1. 基本信息
2 量化命令:
模型稀疏量化
python3 quant_qwen3vl.py \
--model_path /path/to/qwen3_vl_float_weights \
--save_directory /path/to/qwen3_vl_quantized_weights \
--w_bit 4 \
--a_bit 8 \
--device_type npu \
--anti_method m2 \
--is_lowbit True \
--fraction 0.01 \
--use_sigma True \
--torch_dtype fp16 \
--trust_remote_code True
模型压缩
使用vLLM模型压缩脚本save_sharded_state_310.py
cd /usr/local/python3.11.10/lib/python3.11/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
# 编译weight_compression组件,其中${install_path}为CANN软件的安装目录。
bash build.sh ${install_path}/ascend-toolkit/latest
export LD_LIBRARY_PATH=/usr/local/python3.11.10/lib/:$LD_LIBRARY_PATH
python save_sharded_state_310.py \
--model /path/to/qwen3_vl_quantized_weights \
--tensor-parallel-size ${TP数} \
--output /path/to/qwen3_vl_quantized_weights_used_on_310 \
--enforce-eager \
--dtype float16 \
--quantization ascend \
--max-model-len 16384 \
--enable-compress \
--compress-process-num 8
3 精度测试结果
| 模型名 | 量化格式 | 数据集 | 测试精度 % | 浮点精度 % |
|---|
| Qwen3-VL-8B-Instruct-w8a8sc-310-vllm | w8a8sc | textvqa | 79.84 | 80.02 |