| 项目 | 信息 |
|---|---|
| 原始模型名 | Qwen3-Next-80B-A3B-Instruct |
| 原始模型链接 | Qwen/Qwen3-Next-80B-A3B-Instruct |
| msmodelslim commit id | d2ada17a46811bcebc151a8b4f5a2ea016ae8245 |
| 精度测试机型 | Atlas 800T A3 1台 |
| 精度测试平台 | docker vllm-ascend |
| vllm 版本 | v0.15.0 |
| vllm-ascend 版本 | e7a13beedb74b39dffd9f9dd1dd47bed32360206 |
拉取 Qwen3-Next-80B-A3B-Instruct-w8a8-mtp 的 msmodelslim 开发分支并安装:
# 该分支不会做删除或大的调整
git clone https://gitcode.com/weixin_74198818/msmodelslim.git -b qwen3-next/qwen3.5
cd msmodelslim
bash install.sh一键量化:
# 默认使用的量化配置:msmodelslim/lab_practice/qwen3_next/qwen3-next-80b-a3b-w8a8.yaml
msmodelslim quant \
--model_path ${model_path} \
--save_path ${save_path} \
--model_type Qwen3-Next-80B-A3B-Instruct \
--quant_type w8a8 \
--trust_remote_code True| 模型名 | 量化格式 | 数据集 | 测试精度 % | NPU 浮点精度 % | 官方精度 % |
|---|---|---|---|---|---|
| Qwen3-Next-80B-A3B-Instruct-w8a8-mtp | W8A8 | GPQA | 74.75 | 73.74 | 72.9 |
--max-model-len 32768;精度存在波动,建议多次测试。