Qwen3-VL-32B-Instruct-w8a8sc-310-mindie

1. 基本信息

项目	信息
原始模型名	Qwen3-VL-32B-Instruct
原始模型链接	Qwen/Qwen3-VL-32B-Instruct
msmodelslim commit id	d9b21712396ffb511af286fcb031a405bf4f01f1
msmodelslim 操作指引	Readme
精度测试机型	Atlas 300I DUO
精度测试平台	docker MindIE 镜像
版本	MindIE v3.0.0.beta.1

2 量化命令：

模型稀疏量化

python3 quant_qwen3vl.py \
    --model_path /path/to/qwen3_vl_float_weights \
    --save_directory /path/to/qwen3_vl_quantized_weights \
    --w_bit 4 \
    --a_bit 8 \
    --device_type npu \
    --anti_method m2 \
    --is_lowbit True \
    --fraction 0.01 \
    --use_sigma True \
    --torch_dtype fp16 \
    --trust_remote_code True

模型压缩

source /path/to/atb-models/set_env.sh
torchrun --nproc_per_node {TP数} \
    -m examples.convert.model_slim.sparse_compressor \
    --model_path /path/to/qwen3_vl_quantized_weights \
    --save_directory /path/to/qwen3_vl_quantized_weights_used_on_310

3 使用说明

此权重为张量并行预切分权重，需要根据实际TP数选择使用对应路径下的模型权重。

如Qwen3-VL-32B-Instruct-w8a8sc-310-mindie/TP4/Qwen3-VL-32B-Instruct-w8a8sc-310-mindie-tp4

4 精度测试结果

模型名	量化格式	数据集	测试精度 %	浮点精度 %
Qwen3-VL-32B-Instruct-w8a8sc-310-mindie	w8a8sc	textvqa	81.18	80.59

Qwen3-VL-32B-Instruct-w8a8sc-310-mindie

1. 基本信息

项目	信息
原始模型名	Qwen3-VL-32B-Instruct
原始模型链接	Qwen/Qwen3-VL-32B-Instruct
msmodelslim commit id	d9b21712396ffb511af286fcb031a405bf4f01f1
msmodelslim 操作指引	Readme
精度测试机型	Atlas 300I DUO
精度测试平台	docker MindIE 镜像
版本	MindIE v3.0.0.beta.1

2 量化命令：

模型稀疏量化

python3 quant_qwen3vl.py \
    --model_path /path/to/qwen3_vl_float_weights \
    --save_directory /path/to/qwen3_vl_quantized_weights \
    --w_bit 4 \
    --a_bit 8 \
    --device_type npu \
    --anti_method m2 \
    --is_lowbit True \
    --fraction 0.01 \
    --use_sigma True \
    --torch_dtype fp16 \
    --trust_remote_code True

模型压缩

source /path/to/atb-models/set_env.sh
torchrun --nproc_per_node {TP数} \
    -m examples.convert.model_slim.sparse_compressor \
    --model_path /path/to/qwen3_vl_quantized_weights \
    --save_directory /path/to/qwen3_vl_quantized_weights_used_on_310

3 使用说明

此权重为张量并行预切分权重，需要根据实际TP数选择使用对应路径下的模型权重。

如Qwen3-VL-32B-Instruct-w8a8sc-310-mindie/TP4/Qwen3-VL-32B-Instruct-w8a8sc-310-mindie-tp4

4 精度测试结果

模型名	量化格式	数据集	测试精度 %	浮点精度 %
Qwen3-VL-32B-Instruct-w8a8sc-310-mindie	w8a8sc	textvqa	81.18	80.59