Qwen3-VL-32B-Instruct-w8a8sc-310-mindie
1. 基本信息
2 量化命令:
模型稀疏量化
python3 quant_qwen3vl.py \
--model_path /path/to/qwen3_vl_float_weights \
--save_directory /path/to/qwen3_vl_quantized_weights \
--w_bit 4 \
--a_bit 8 \
--device_type npu \
--anti_method m2 \
--is_lowbit True \
--fraction 0.01 \
--use_sigma True \
--torch_dtype fp16 \
--trust_remote_code True
模型压缩
source /path/to/atb-models/set_env.sh
torchrun --nproc_per_node {TP数} \
-m examples.convert.model_slim.sparse_compressor \
--model_path /path/to/qwen3_vl_quantized_weights \
--save_directory /path/to/qwen3_vl_quantized_weights_used_on_310
3 使用说明
此权重为张量并行预切分权重,需要根据实际TP数选择使用对应路径下的模型权重。
- 如Qwen3-VL-32B-Instruct-w8a8sc-310-mindie/TP4/Qwen3-VL-32B-Instruct-w8a8sc-310-mindie-tp4
4 精度测试结果
| 模型名 | 量化格式 | 数据集 | 测试精度 % | 浮点精度 % |
|---|
| Qwen3-VL-32B-Instruct-w8a8sc-310-mindie | w8a8sc | textvqa | 81.18 | 80.59 |