| 项目 | 内容 |
|---|---|
| 模型名称 | Gemma-4-26B-A4B-NVFP4 |
| 模型来源 | https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4 |
| 基础模型 | google/gemma-4-26B-A4B-it |
| 验证日期 | 2026-05-11 |
| 验证工具 | ascend-model-verification Skill |
| 硬件环境 | 华为昇腾 Ascend 910B4 (1×NPU, 32GB HBM) |
| vLLM 版本 | 0.18.0+empty |
| vLLM-Ascend 版本 | 0.18.0rc1 |
| PyTorch 版本 | 2.9.0+cpu |
| 适配状态 | ❌ 暂不兼容 |
+------------------------------------------------------------------------------------------------+
| npu-smi 25.5.1 Version: 25.5.1 |
+---------------------------+---------------+----------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page)|
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) |
+===========================+===============+====================================================+
| 5 910B4 | OK | 89.3 43 0 / 0 |
| 0 | 0000:41:00.0 | 0 0 / 0 4734 / 32768 |
+===========================+===============+====================================================+结论: ✅ NPU 设备状态正常 (Health: OK)
| 软件包 | 版本 | 状态 |
|---|---|---|
| vllm | 0.18.0+empty | ✅ 已安装 |
| vllm_ascend | 0.18.0rc1 | ✅ 已安装 |
| torch_npu | 可用 | ✅ NPU 可访问 |
结论: ✅ vLLM-Ascend v0.18.0rc1 已正确安装
| 参数 | 值 | 说明 |
|---|---|---|
| 架构类型 | Gemma4ForConditionalGeneration | Google Gemma 4 系列 |
| 总参数量 | 25.2B | 含 Vision Encoder |
| 活跃参数量 | 3.8B | MoE 架构,仅激活部分专家 |
| 隐藏层维度 | 2816 | text_config.hidden_size |
| 注意力头数 | 16 | num_attention_heads |
| KV 头数 | 8 | GQA 分组查询注意力 |
| 层数 | 30 | num_hidden_layers |
| 专家总数 | 128 | num_experts |
| 激活专家数 | 8 | top_k_experts |
| 上下文长度 | 262,144 tokens (256K) | max_position_embeddings |
| 词表大小 | 262,144 | vocab_size |
| 滑动窗口 | 1024 tokens | sliding_window |
| 注意力模式 | Hybrid | Sliding + Full Attention 交错 |
| 位置编码 | p-RoPE (Proportional RoPE) | 比例旋转位置编码 |
| 激活函数 | gelu_pytorch_tanh | 激活函数 |
| 数据类型 | bfloat16 | 基础计算精度 |
| 组件 | 参数 | 说明 |
|---|---|---|
| Vision Encoder | Gemma4VisionEncoder | 视觉编码器 |
| Vision 隐藏层 | 1152 | vision_config.hidden_size |
| Vision 层数 | 27 | vision 独立 Transformer |
| Vision 头数 | 16 | vision attention heads |
| Patch Size | 16 | 图像分块大小 |
| 视觉软令牌 | 280 tokens/图 | vision_soft_tokens_per_image |
| 特殊 Token | boi/boa/eoi/eoa | 图像起始/结束标记 |
| 配置项 | 值 | 说明 |
|---|---|---|
| 量化算法 | NVFP4 | NVIDIA 专有 4-bit 浮点量化 |
| 量化工具 | modelopt 0.43.0rc2 | NVIDIA Model Optimizer |
| 权重量化 | 4-bit float, group_size=16 | 逐组 NVFP4 |
| 激活量化 | 4-bit float, group_size=16 | 逐组 NVFP4 |
| KV Cache 量化 | FP8 | 8-bit 浮点 KV Cache |
| 排除模块 | lm_head, vision_tower, 部分 layers | 保持原精度模块 |
| 校准数据 | cnn_dailymail, Nemotron-v2 | 校准数据集 |
⚠️ 关键发现: NVFP4 为 NVIDIA Blackwell 架构专有量化格式,当前昇腾 NPU (910B4) 无原生硬件解码支持。
启动命令:
vllm serve . \
--host 0.0.0.0 \
--port 9000 \
--tensor-parallel-size 1 \
--max-model-len 4096 \
--trust-remote-code \
--gpu-memory-utilization 0.85INFO Platform plugin ascend is activated
INFO Registered model loader netloader / rfork
INFO vLLM 0.18.0, model .
Traceback (most recent call last):
...
pydantic_core._pydantic_core.ValidationError: 1 validation error for ModelConfig
Value error, The checkpoint you are trying to load has model type `gemma4`
but Transformers does not recognize this architecture.错误类型: ArchitectureNotSupported
根因分析:
gemma4 模型类型Gemma4ForConditionalGeneration 模型类结论: ❌ 模型服务启动失败,无法加载
| 模型系列 | 支持状态 | 说明 |
|---|---|---|
| Qwen3.5 | ✅ 支持 | 已验证 0.8B/27B/32B |
| Llama3 / Llama3.1 | ✅ 支持 | 官方支持 |
| Gemma / Gemma2 | ⚠️ 部分支持 | Gemma2 需确认 |
| Gemma4 | ❌ 不支持 | 本模型架构暂不支持 |
| Mixtral (MoE) | ⚠️ 部分支持 | MoE 路由需验证 |
| 特性 | 说明 | 昇腾兼容性 | 阻塞程度 |
|---|---|---|---|
| Gemma4 架构 | 全新模型类型,需 Transformers + vLLM 双重支持 | ❌ 不支持 | 🔴 阻塞 |
| NVFP4 量化 | NVIDIA 专有 4-bit float,Blackwell 硬件依赖 | ❌ 不支持 | 🔴 阻塞 |
| p-RoPE 位置编码 | Proportional Rotary Position Embedding | ⚠️ 未知 | 🟡 待验证 |
| Hybrid Attention | Sliding (1024) + Full (全局) 交错 | ⚠️ 部分支持 | 🟡 待验证 |
| MoE (128E/8A) | 128 专家,top-8 路由 | ⚠️ 部分支持 | 🟡 待验证 |
| FP8 KV Cache | 8-bit 浮点 KV Cache | ❌ 不支持 | 🟠 高优先级 |
| Gemma4Vision | 多模态视觉编码器 (27层) | ⚠️ 未知 | 🟡 待验证 |
| BF16 基础精度 | bfloat16 计算 | ✅ 支持 | 🟢 无阻塞 |
| GQA (8 KV heads) | 分组查询注意力 | ✅ 支持 | 🟢 无阻塞 |
| 评估项 | 结果 | 依据 |
|---|---|---|
| 环境兼容性 | ✅ 合格 | NPU 正常,vLLM-Ascend 已安装 |
| 模型架构兼容性 | ❌ 不兼容 | Transformers 不支持 gemma4 类型 |
| 量化格式兼容性 | ❌ 不兼容 | NVFP4 为 NVIDIA 专有格式 |
| 权重可用性 | ❌ 不可用 | LFS 指针文件,实际权重未下载 |
| 运行时适配 | ❌ 失败 | 服务启动抛出 ValidationError |
| 精度评估 | ⏭️ 跳过 | 服务未启动 |
| 性能基准 | ⏭️ 跳过 | 服务未启动 |
Gemma-4-26B-A4B-NVFP4 模型在昇腾 NPU 上的适配状态为:❌ 暂不兼容
核心障碍:
gemma4 为新发布架构,Transformers 和 vLLM-Ascend 尚未适配当前建议:
gemma4 模型类型# 关注以下仓库的更新,等待官方支持
# vLLM-Ascend: https://github.com/vllm-project/vllm-ascend
# Transformers: https://github.com/huggingface/transformers如获取到 BF16 原始权重,可尝试:
# 1. 使用 msmodelslim 进行昇腾友好量化
pip install msmodelslim
# 2. 转换为 W8A8 (昇腾支持)
# 参考: https://gitee.com/ascend/msmodelslim
python convert_to_ascend_w8a8.py \
--model /path/to/gemma-4-26b-bf16 \
--output /path/to/gemma-4-26b-w8a8
# 3. 使用昇腾量化参数启动
vllm serve /path/to/gemma-4-26b-w8a8 \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 2 \
--quantization ascend \
--max-model-len 32768 \
--gpu-memory-utilization 0.90 \
--compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
--async-scheduling| 配置 | 推荐值 | 说明 |
|---|---|---|
| NPU | Atlas 800 A2 (64G×8) 或 A3 | 26B 模型 + 256K 上下文需要大 HBM |
| TP 并行 | 2 或 4 | 根据序列长度调整 |
| max-model-len | 32768 ~ 131072 | 256K 全上下文需多卡 |
| 量化 | ascend (W8A8) | 替代 NVFP4 |
| KV Cache | BF16 / INT8 | 替代 FP8 |
| 脚本 | 用途 |
|---|---|
validator.py | Python 验证编排器 |
validation_report_gemma4_26b_nvfp4.json | 本次验证的完整 JSON 报告 |
| 模型 | 参数量 | 量化 | 昇腾支持 | 备注 |
|---|---|---|---|---|
| Qwen3.5-27B-w8a8 | 27B | W8A8 | ✅ | 已验证 |
| Qwen3.5-0.8B | 0.8B | BF16 | ✅ | 已验证 |
| Gemma-2-27B | 27B | BF16 | ⚠️ | 需确认 |
| Gemma-4-26B-NVFP4 | 26B | NVFP4 | ❌ | 本报告 |
# 环境检查
$ npu-smi info
# 输出: 1x Ascend 910B4, Health OK
$ pip list | grep vllm
# 输出: vllm 0.18.0+empty, vllm_ascend 0.18.0rc1
# 模型配置获取
$ git clone https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4.git
# 输出: 克隆成功,获取 config.json / hf_quant_config.json
# 服务启动尝试
$ vllm serve . --host 0.0.0.0 --port 9000 --tensor-parallel-size 1 \
--max-model-len 4096 --trust-remote-code --gpu-memory-utilization 0.85
# 输出: ValidationError - model type 'gemma4' not recognized by Transformers报告生成时间: 2026-05-11 UTC 验证工具版本: ascend-model-verification v1.0.0 GitCode 仓库: https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4