m0_72496284/Gemma-4-26B-A4B-NVFP4-Ascend-Verification
模型介绍文件和版本Pull Requests讨论分析
下载使用量0

Gemma-4-26B-A4B-NVFP4 昇腾适配验证报告

验证信息

项目内容
模型名称Gemma-4-26B-A4B-NVFP4
模型来源https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4
基础模型google/gemma-4-26B-A4B-it
验证日期2026-05-11
验证工具ascend-model-verification Skill
硬件环境华为昇腾 Ascend 910B4 (1×NPU, 32GB HBM)
vLLM 版本0.18.0+empty
vLLM-Ascend 版本0.18.0rc1
PyTorch 版本2.9.0+cpu
适配状态❌ 暂不兼容

一、环境预检结果

1.1 NPU 设备状态

+------------------------------------------------------------------------------------------------+
| npu-smi 25.5.1                   Version: 25.5.1                                               |
+---------------------------+---------------+----------------------------------------------------+
| NPU   Name                | Health        | Power(W)    Temp(C)           Hugepages-Usage(page)|
| Chip                      | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM-Usage(MB)        |
+===========================+===============+====================================================+
| 5     910B4               | OK            | 89.3        43                0    / 0             |
| 0                         | 0000:41:00.0  | 0           0    / 0          4734 / 32768         |
+===========================+===============+====================================================+

结论: ✅ NPU 设备状态正常 (Health: OK)

1.2 vLLM-Ascend 安装检查

软件包版本状态
vllm0.18.0+empty✅ 已安装
vllm_ascend0.18.0rc1✅ 已安装
torch_npu可用✅ NPU 可访问

结论: ✅ vLLM-Ascend v0.18.0rc1 已正确安装


二、模型配置分析

2.1 模型架构参数

参数值说明
架构类型Gemma4ForConditionalGenerationGoogle Gemma 4 系列
总参数量25.2B含 Vision Encoder
活跃参数量3.8BMoE 架构,仅激活部分专家
隐藏层维度2816text_config.hidden_size
注意力头数16num_attention_heads
KV 头数8GQA 分组查询注意力
层数30num_hidden_layers
专家总数128num_experts
激活专家数8top_k_experts
上下文长度262,144 tokens (256K)max_position_embeddings
词表大小262,144vocab_size
滑动窗口1024 tokenssliding_window
注意力模式HybridSliding + Full Attention 交错
位置编码p-RoPE (Proportional RoPE)比例旋转位置编码
激活函数gelu_pytorch_tanh激活函数
数据类型bfloat16基础计算精度

2.2 多模态配置

组件参数说明
Vision EncoderGemma4VisionEncoder视觉编码器
Vision 隐藏层1152vision_config.hidden_size
Vision 层数27vision 独立 Transformer
Vision 头数16vision attention heads
Patch Size16图像分块大小
视觉软令牌280 tokens/图vision_soft_tokens_per_image
特殊 Tokenboi/boa/eoi/eoa图像起始/结束标记

2.3 量化配置 (NVFP4)

配置项值说明
量化算法NVFP4NVIDIA 专有 4-bit 浮点量化
量化工具modelopt 0.43.0rc2NVIDIA Model Optimizer
权重量化4-bit float, group_size=16逐组 NVFP4
激活量化4-bit float, group_size=16逐组 NVFP4
KV Cache 量化FP88-bit 浮点 KV Cache
排除模块lm_head, vision_tower, 部分 layers保持原精度模块
校准数据cnn_dailymail, Nemotron-v2校准数据集

⚠️ 关键发现: NVFP4 为 NVIDIA Blackwell 架构专有量化格式,当前昇腾 NPU (910B4) 无原生硬件解码支持。


三、模型加载测试

3.1 服务启动尝试

启动命令:

vllm serve . \
  --host 0.0.0.0 \
  --port 9000 \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --trust-remote-code \
  --gpu-memory-utilization 0.85

3.2 启动日志与错误分析

INFO  Platform plugin ascend is activated
INFO  Registered model loader netloader / rfork
INFO  vLLM 0.18.0, model .

Traceback (most recent call last):
  ...
  pydantic_core._pydantic_core.ValidationError: 1 validation error for ModelConfig
  Value error, The checkpoint you are trying to load has model type `gemma4`
  but Transformers does not recognize this architecture.

错误类型: ArchitectureNotSupported

根因分析:

  1. Transformers 不支持: 当前安装的 Transformers 版本尚未注册 gemma4 模型类型
  2. vLLM 未注册: vLLM-Ascend 后端未实现 Gemma4ForConditionalGeneration 模型类
  3. NVFP4 格式障碍: 即使架构支持,NVFP4 权重格式也无法在昇腾 NPU 上解码
  4. 权重不可用: GitCode 仓库中 safetensors 为 LFS 指针文件,未包含实际权重

结论: ❌ 模型服务启动失败,无法加载


四、架构兼容性分析

4.1 vLLM-Ascend 支持矩阵

模型系列支持状态说明
Qwen3.5✅ 支持已验证 0.8B/27B/32B
Llama3 / Llama3.1✅ 支持官方支持
Gemma / Gemma2⚠️ 部分支持Gemma2 需确认
Gemma4❌ 不支持本模型架构暂不支持
Mixtral (MoE)⚠️ 部分支持MoE 路由需验证

4.2 技术架构兼容性逐项分析

特性说明昇腾兼容性阻塞程度
Gemma4 架构全新模型类型,需 Transformers + vLLM 双重支持❌ 不支持🔴 阻塞
NVFP4 量化NVIDIA 专有 4-bit float,Blackwell 硬件依赖❌ 不支持🔴 阻塞
p-RoPE 位置编码Proportional Rotary Position Embedding⚠️ 未知🟡 待验证
Hybrid AttentionSliding (1024) + Full (全局) 交错⚠️ 部分支持🟡 待验证
MoE (128E/8A)128 专家,top-8 路由⚠️ 部分支持🟡 待验证
FP8 KV Cache8-bit 浮点 KV Cache❌ 不支持🟠 高优先级
Gemma4Vision多模态视觉编码器 (27层)⚠️ 未知🟡 待验证
BF16 基础精度bfloat16 计算✅ 支持🟢 无阻塞
GQA (8 KV heads)分组查询注意力✅ 支持🟢 无阻塞

五、验证结论

5.1 适配状态评估

评估项结果依据
环境兼容性✅ 合格NPU 正常,vLLM-Ascend 已安装
模型架构兼容性❌ 不兼容Transformers 不支持 gemma4 类型
量化格式兼容性❌ 不兼容NVFP4 为 NVIDIA 专有格式
权重可用性❌ 不可用LFS 指针文件,实际权重未下载
运行时适配❌ 失败服务启动抛出 ValidationError
精度评估⏭️ 跳过服务未启动
性能基准⏭️ 跳过服务未启动

5.2 最终结论

Gemma-4-26B-A4B-NVFP4 模型在昇腾 NPU 上的适配状态为:❌ 暂不兼容

核心障碍:

  1. 🔴 架构未支持: gemma4 为新发布架构,Transformers 和 vLLM-Ascend 尚未适配
  2. 🔴 格式壁垒: NVFP4 量化格式绑定 NVIDIA Blackwell 硬件,昇腾无解码能力
  3. 🟠 生态差异: FP8 KV Cache、modelopt 量化方案等需昇腾侧重新实现

当前建议:

  • 如需在 NVIDIA 平台运行,请使用 NVIDIA Blackwell GPU (如 B200)
  • 如需昇腾部署,建议等待以下任一条件成熟:
    • vLLM-Ascend 官方添加 Gemma4 架构支持
    • Transformers 库支持 gemma4 模型类型
    • Google 或社区发布 BF16/FP16 非量化版本
    • 昇腾工具链支持 NVFP4/FP8 格式转换

六、适配建议与替代方案

6.1 短期方案 (等待社区支持)

# 关注以下仓库的更新,等待官方支持
# vLLM-Ascend: https://github.com/vllm-project/vllm-ascend
# Transformers: https://github.com/huggingface/transformers

6.2 中期方案 (格式转换)

如获取到 BF16 原始权重,可尝试:

# 1. 使用 msmodelslim 进行昇腾友好量化
pip install msmodelslim

# 2. 转换为 W8A8 (昇腾支持)
# 参考: https://gitee.com/ascend/msmodelslim
python convert_to_ascend_w8a8.py \
  --model /path/to/gemma-4-26b-bf16 \
  --output /path/to/gemma-4-26b-w8a8

# 3. 使用昇腾量化参数启动
vllm serve /path/to/gemma-4-26b-w8a8 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --quantization ascend \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --async-scheduling

6.3 硬件要求参考 (若未来适配成功)

配置推荐值说明
NPUAtlas 800 A2 (64G×8) 或 A326B 模型 + 256K 上下文需要大 HBM
TP 并行2 或 4根据序列长度调整
max-model-len32768 ~ 131072256K 全上下文需多卡
量化ascend (W8A8)替代 NVFP4
KV CacheBF16 / INT8替代 FP8

七、参考信息

7.1 官方文档

  • Gemma 4 官方模型卡
  • NVIDIA Gemma-4-26B-A4B-NVFP4
  • vLLM-Ascend 支持矩阵
  • vLLM-Ascend GitHub
  • msmodelslim 量化工具

7.2 验证脚本

脚本用途
validator.pyPython 验证编排器
validation_report_gemma4_26b_nvfp4.json本次验证的完整 JSON 报告

7.3 相关模型对比

模型参数量量化昇腾支持备注
Qwen3.5-27B-w8a827BW8A8✅已验证
Qwen3.5-0.8B0.8BBF16✅已验证
Gemma-2-27B27BBF16⚠️需确认
Gemma-4-26B-NVFP426BNVFP4❌本报告

附录:验证命令日志

# 环境检查
$ npu-smi info
# 输出: 1x Ascend 910B4, Health OK

$ pip list | grep vllm
# 输出: vllm 0.18.0+empty, vllm_ascend 0.18.0rc1

# 模型配置获取
$ git clone https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4.git
# 输出: 克隆成功,获取 config.json / hf_quant_config.json

# 服务启动尝试
$ vllm serve . --host 0.0.0.0 --port 9000 --tensor-parallel-size 1 \
    --max-model-len 4096 --trust-remote-code --gpu-memory-utilization 0.85
# 输出: ValidationError - model type 'gemma4' not recognized by Transformers

报告生成时间: 2026-05-11 UTC 验证工具版本: ascend-model-verification v1.0.0 GitCode 仓库: https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4