E
Eco-Tech/Qwen3-14B-w8a8sc-310-vllm
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Qwen3-14B-w8a8sc-310-vllm

1. 基本信息

项目信息
原始模型名Qwen3-14B
原始模型链接Qwen/Qwen3-14B
msmodelslim commit id6a860e4a7b48b4573a8aeeaa12123d2bbc9ec9b8
msmodelslim 操作指引Readme
精度测试机型Atlas 300I DUO
精度测试平台docker vLLM 镜像
版本vLLM 26.0.0.poc

2 量化命令:

模型稀疏量化

msmodelslim quant --model_path {浮点权重路径} --save_path {W8A8量化权重路径} --device npu --model_type Qwen3-14B --quant_type w8a8s --trust_remote_code True

模型压缩

使用vLLM模型压缩脚本save_sharded_state_310.py

cd /usr/local/python3.11.10/lib/python3.11/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
# 编译weight_compression组件,其中${install_path}为CANN软件的安装目录。
bash build.sh ${install_path}/ascend-toolkit/latest
export LD_LIBRARY_PATH=/usr/local/python3.11.10/lib/:$LD_LIBRARY_PATH
python save_sharded_state_310.py \
    --model {W8A8稀疏量化权重路径} \
    --tensor-parallel-size ${TP数} \
    --output {W8A8稀疏压缩量化权重路径} \
    --enforce-eager \
    --dtype float16 \
    --quantization ascend \
    --max-model-len 16384 \
    --enable-compress \
    --compress-process-num 8

3 精度测试结果

模型名量化格式数据集测试精度 %浮点精度 %
Qwen3-14B-w8a8sc-310-vllmw8a8scBoolQ89.0589.27
Qwen3-14B-w8a8sc-310-vllmw8a8scCEval81.6583.06
Qwen3-14B-w8a8sc-310-vllmw8a8scGSM8K94.7794.84
  • 精度数据来自于非深度思考模式的推理结果