Qwen3-14B-w8a8sc-310-vllm

1. 基本信息

项目	信息
原始模型名	Qwen3-14B
原始模型链接	Qwen/Qwen3-14B
msmodelslim commit id	6a860e4a7b48b4573a8aeeaa12123d2bbc9ec9b8
msmodelslim 操作指引	Readme
精度测试机型	Atlas 300I DUO
精度测试平台	docker vLLM 镜像
版本	vLLM 26.0.0.poc

2 量化命令：

模型稀疏量化

msmodelslim quant --model_path {浮点权重路径} --save_path {W8A8量化权重路径} --device npu --model_type Qwen3-14B --quant_type w8a8s --trust_remote_code True

模型压缩

使用vLLM模型压缩脚本save_sharded_state_310.py

cd /usr/local/python3.11.10/lib/python3.11/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
# 编译weight_compression组件，其中${install_path}为CANN软件的安装目录。
bash build.sh ${install_path}/ascend-toolkit/latest
export LD_LIBRARY_PATH=/usr/local/python3.11.10/lib/:$LD_LIBRARY_PATH
python save_sharded_state_310.py \
    --model {W8A8稀疏量化权重路径} \
    --tensor-parallel-size ${TP数} \
    --output {W8A8稀疏压缩量化权重路径} \
    --enforce-eager \
    --dtype float16 \
    --quantization ascend \
    --max-model-len 16384 \
    --enable-compress \
    --compress-process-num 8

3 精度测试结果

模型名	量化格式	数据集	测试精度 %	浮点精度 %
Qwen3-14B-w8a8sc-310-vllm	w8a8sc	BoolQ	89.05	89.27
Qwen3-14B-w8a8sc-310-vllm	w8a8sc	CEval	81.65	83.06
Qwen3-14B-w8a8sc-310-vllm	w8a8sc	GSM8K	94.77	94.84

精度数据来自于非深度思考模式的推理结果

Qwen3-14B-w8a8sc-310-vllm

1. 基本信息

项目	信息
原始模型名	Qwen3-14B
原始模型链接	Qwen/Qwen3-14B
msmodelslim commit id	6a860e4a7b48b4573a8aeeaa12123d2bbc9ec9b8
msmodelslim 操作指引	Readme
精度测试机型	Atlas 300I DUO
精度测试平台	docker vLLM 镜像
版本	vLLM 26.0.0.poc

2 量化命令：

模型稀疏量化

msmodelslim quant --model_path {浮点权重路径} --save_path {W8A8量化权重路径} --device npu --model_type Qwen3-14B --quant_type w8a8s --trust_remote_code True

模型压缩

使用vLLM模型压缩脚本save_sharded_state_310.py

cd /usr/local/python3.11.10/lib/python3.11/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
# 编译weight_compression组件，其中${install_path}为CANN软件的安装目录。
bash build.sh ${install_path}/ascend-toolkit/latest
export LD_LIBRARY_PATH=/usr/local/python3.11.10/lib/:$LD_LIBRARY_PATH
python save_sharded_state_310.py \
    --model {W8A8稀疏量化权重路径} \
    --tensor-parallel-size ${TP数} \
    --output {W8A8稀疏压缩量化权重路径} \
    --enforce-eager \
    --dtype float16 \
    --quantization ascend \
    --max-model-len 16384 \
    --enable-compress \
    --compress-process-num 8

3 精度测试结果

模型名	量化格式	数据集	测试精度 %	浮点精度 %
Qwen3-14B-w8a8sc-310-vllm	w8a8sc	BoolQ	89.05	89.27
Qwen3-14B-w8a8sc-310-vllm	w8a8sc	CEval	81.65	83.06
Qwen3-14B-w8a8sc-310-vllm	w8a8sc	GSM8K	94.77	94.84

精度数据来自于非深度思考模式的推理结果