Kimi-K2.6-w4a8
1. 基本信息
| 项目 | 信息 |
|---|
| 原始模型名 | Kimi-K2.6 |
| 原始模型链接 | moonshotai/Kimi-K2.6 |
| modelslim commit id | b5190916a0f9a2a9b838508906e667891985356e |
| 精度测试机型 | Atlas 800T A3 4台 2P1D |
| 精度测试平台 | docker vllm-ascend |
| 版本 | vllm-ascend:v0.18.0rc1 |
| 链接 | quay.m.daocloud.io/ascend/vllm-ascend:v0.18.0rc1 |
2 量化脚本:
Kimi-K2.6与K2.5结构相同,复用2.5量化方案:已集成量化方案
msmodelslim quant \
--model_path ${model_path} \
--save_path ${save_path} \
--device npu \
--model_type Kimi-K2.5 \
--quant_type w4a8 \
--trust_remote_code True
3 精度测试结果
| 模型名 | 量化格式 | 数据集 | 测试精度 % | 官方精度 % |
|---|
| Kimi-K2.6-w4a8 | w4a8 | gpqa | 89.90 | 90.5 |
- 使用ais_bench,其中
max_out_len = 98304,精度存在波动,建议多次测试。