Qwen3-32B-w16a16sc-310-mindie

1. 基本信息

项目	信息
原始模型名	Qwen3-32B
原始模型链接	Qwen/Qwen3-32B
msmodelslim commit id	6bc2b5c71635d25361beff1d37813fa5782ad423
msmodelslim 操作指引	Readme
精度测试机型	Atlas 300I DUO
精度测试平台	docker MindIE 镜像
版本	MindIE 2.3.0

2 量化命令：

模型稀疏量化

msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type Qwen3-32B --quant_type w16a16s --trust_remote_code True

模型压缩

提示：压缩后的权重为预切分权重，因而压缩命令需要按实际推理场景设置TP数。

export PYTHONPATH=/usr/local/lib/python3.11/site-packages/atb_llm/:$PYTHONPATH
torchrun --nproc_per_node {TP数} \
    -m examples.convert.model_slim.sparse_compressor \
    --model_path /path/to/qwen3_quantized_weights \
    --save_directory /path/to/qwen3_quantized_weights_used_on_310 \
    --multiprocess_num 1

3 使用说明

此权重为张量并行预切分权重，需要根据实际TP数选择使用对应路径下的模型权重。

如Qwen3-32B-w16a16sc-310-mindie/tree/master/TP4/Qwen3-32B-w16a16sc-310-mindie-tp4

4 精度测试结果

模型名	量化格式	数据集	测试精度 %	浮点精度 %
Qwen3-32B-w16a16sc-310-mindie	w16a16sc	CEval	84.47	84.77
Qwen3-32B-w16a16sc-310-mindie	w16a16sc	BoolQ	88.35	89.24
Qwen3-32B-w16a16sc-310-mindie	w16a16sc	GSM8K	94.09	95.07

精度数据来自于非深度思考模式的推理结果

Qwen3-32B-w16a16sc-310-mindie

1. 基本信息

项目	信息
原始模型名	Qwen3-32B
原始模型链接	Qwen/Qwen3-32B
msmodelslim commit id	6bc2b5c71635d25361beff1d37813fa5782ad423
msmodelslim 操作指引	Readme
精度测试机型	Atlas 300I DUO
精度测试平台	docker MindIE 镜像
版本	MindIE 2.3.0

2 量化命令：

模型稀疏量化

msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type Qwen3-32B --quant_type w16a16s --trust_remote_code True

模型压缩

提示：压缩后的权重为预切分权重，因而压缩命令需要按实际推理场景设置TP数。

export PYTHONPATH=/usr/local/lib/python3.11/site-packages/atb_llm/:$PYTHONPATH
torchrun --nproc_per_node {TP数} \
    -m examples.convert.model_slim.sparse_compressor \
    --model_path /path/to/qwen3_quantized_weights \
    --save_directory /path/to/qwen3_quantized_weights_used_on_310 \
    --multiprocess_num 1

3 使用说明

此权重为张量并行预切分权重，需要根据实际TP数选择使用对应路径下的模型权重。

如Qwen3-32B-w16a16sc-310-mindie/tree/master/TP4/Qwen3-32B-w16a16sc-310-mindie-tp4

4 精度测试结果

模型名	量化格式	数据集	测试精度 %	浮点精度 %
Qwen3-32B-w16a16sc-310-mindie	w16a16sc	CEval	84.47	84.77
Qwen3-32B-w16a16sc-310-mindie	w16a16sc	BoolQ	88.35	89.24
Qwen3-32B-w16a16sc-310-mindie	w16a16sc	GSM8K	94.09	95.07

精度数据来自于非深度思考模式的推理结果