| 项目 | 信息 |
|---|---|
| 原始模型名 | Qwen3.5-397B-A17B |
| 原始模型链接 | Qwen/Qwen3.5-397B-A17B |
| modelslim commit id | c52048041e31176dfe1084538a8c74a3f6aad9d4 |
| 精度测试机型 | Atlas 800T A2 1台 |
| 精度测试平台 | docker vllm-ascend |
| 版本 | vllm-ascend:v0.14.0rc1 |
| 链接 | quay.m.daocloud.io/ascend/vllm-ascend:v0.14.0rc1 |
已集成一键量化
msmodelslim quant --model_path ${MODEL_PATH} --save_path ${SAVE_PATH} --device npu --model_type Qwen3.5-397B-A17B --quant_type w4a8 --trust_remote_code True| 模型名 | 量化格式 | 数据集 | 测试精度 % | 官方精度 % |
|---|---|---|---|---|
| Qwen3.5-397B-A17B-w4a8-mtp | w4a8 | ceval | 93.46 | 93.0 |
| Qwen3.5-397B-A17B-w4a8-mtp | w4a8 | gpqa | 87.88 | 88.4 |
| Qwen3.5-397B-A17B-w4a8-mtp | w4a8 | mmlupro | 87.88 | 87.8 |
--max-model-len 133120,测试端使用ais_bench,其中max_out_len = 65536,精度存在波动,建议多次测试。