Qwen3-14B-w8a8sc-310-vllm
1. 基本信息
| 项目 | 信息 |
|---|
| 原始模型名 | Qwen3-14B |
| 原始模型链接 | Qwen/Qwen3-14B |
| msmodelslim commit id | 6a860e4a7b48b4573a8aeeaa12123d2bbc9ec9b8 |
| msmodelslim 操作指引 | Readme |
| 精度测试机型 | Atlas 300I DUO |
| 精度测试平台 | docker vLLM 镜像 |
| 版本 | vLLM 26.0.0.poc |
2 量化命令:
模型稀疏量化
msmodelslim quant --model_path {浮点权重路径} --save_path {W8A8量化权重路径} --device npu --model_type Qwen3-14B --quant_type w8a8s --trust_remote_code True
模型压缩
使用vLLM模型压缩脚本save_sharded_state_310.py
cd /usr/local/python3.11.10/lib/python3.11/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
# 编译weight_compression组件,其中${install_path}为CANN软件的安装目录。
bash build.sh ${install_path}/ascend-toolkit/latest
export LD_LIBRARY_PATH=/usr/local/python3.11.10/lib/:$LD_LIBRARY_PATH
python save_sharded_state_310.py \
--model {W8A8稀疏量化权重路径} \
--tensor-parallel-size ${TP数} \
--output {W8A8稀疏压缩量化权重路径} \
--enforce-eager \
--dtype float16 \
--quantization ascend \
--max-model-len 16384 \
--enable-compress \
--compress-process-num 8
3 精度测试结果
| 模型名 | 量化格式 | 数据集 | 测试精度 % | 浮点精度 % |
|---|
| Qwen3-14B-w8a8sc-310-vllm | w8a8sc | BoolQ | 89.05 | 89.27 |
| Qwen3-14B-w8a8sc-310-vllm | w8a8sc | CEval | 81.65 | 83.06 |
| Qwen3-14B-w8a8sc-310-vllm | w8a8sc | GSM8K | 94.77 | 94.84 |