| 项目 | 信息 |
|---|---|
| 原始模型名 | Qwen3-32B |
| 原始模型链接 | Qwen/Qwen3-32B |
| msmodelslim commit id | 6bc2b5c71635d25361beff1d37813fa5782ad423 |
| msmodelslim 操作指引 | Readme |
| 精度测试机型 | Atlas 300I DUO |
| 精度测试平台 | docker MindIE 镜像 |
| 版本 | MindIE 2.3.0 |
msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type Qwen3-32B --quant_type w16a16s --trust_remote_code True提示:压缩后的权重为预切分权重,因而压缩命令需要按实际推理场景设置TP数。
export PYTHONPATH=/usr/local/lib/python3.11/site-packages/atb_llm/:$PYTHONPATH
torchrun --nproc_per_node {TP数} \
-m examples.convert.model_slim.sparse_compressor \
--model_path /path/to/qwen3_quantized_weights \
--save_directory /path/to/qwen3_quantized_weights_used_on_310 \
--multiprocess_num 1此权重为张量并行预切分权重,需要根据实际TP数选择使用对应路径下的模型权重。
| 模型名 | 量化格式 | 数据集 | 测试精度 % | 浮点精度 % |
|---|---|---|---|---|
| Qwen3-32B-w16a16sc-310-mindie | w16a16sc | CEval | 84.47 | 84.77 |
| Qwen3-32B-w16a16sc-310-mindie | w16a16sc | BoolQ | 88.35 | 89.24 |
| Qwen3-32B-w16a16sc-310-mindie | w16a16sc | GSM8K | 94.09 | 95.07 |