m0_72496284/Gemma-4-26B-A4B-NVFP4-Ascend-Verification

Gemma-4-26B-A4B-NVFP4 昇腾适配验证报告

验证信息

项目	内容
模型名称	Gemma-4-26B-A4B-NVFP4
模型来源	https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4
基础模型	google/gemma-4-26B-A4B-it
验证日期	2026-05-11
验证工具	ascend-model-verification Skill
硬件环境	华为昇腾 Ascend 910B4 (1×NPU, 32GB HBM)
vLLM 版本	0.18.0+empty
vLLM-Ascend 版本	0.18.0rc1
PyTorch 版本	2.9.0+cpu
适配状态	❌ 暂不兼容

一、环境预检结果

1.1 NPU 设备状态

+------------------------------------------------------------------------------------------------+
| npu-smi 25.5.1                   Version: 25.5.1                                               |
+---------------------------+---------------+----------------------------------------------------+
| NPU   Name                | Health        | Power(W)    Temp(C)           Hugepages-Usage(page)|
| Chip                      | Bus-Id        | AICore(%)   Memory-Usage(MB)  HBM-Usage(MB)        |
+===========================+===============+====================================================+
| 5     910B4               | OK            | 89.3        43                0    / 0             |
| 0                         | 0000:41:00.0  | 0           0    / 0          4734 / 32768         |
+===========================+===============+====================================================+

结论: ✅ NPU 设备状态正常 (Health: OK)

1.2 vLLM-Ascend 安装检查

软件包	版本	状态
vllm	0.18.0+empty	✅ 已安装
vllm_ascend	0.18.0rc1	✅ 已安装
torch_npu	可用	✅ NPU 可访问

结论: ✅ vLLM-Ascend v0.18.0rc1 已正确安装

二、模型配置分析

2.1 模型架构参数

参数	值	说明
架构类型	Gemma4ForConditionalGeneration	Google Gemma 4 系列
总参数量	25.2B	含 Vision Encoder
活跃参数量	3.8B	MoE 架构，仅激活部分专家
隐藏层维度	2816	text_config.hidden_size
注意力头数	16	num_attention_heads
KV 头数	8	GQA 分组查询注意力
层数	30	num_hidden_layers
专家总数	128	num_experts
激活专家数	8	top_k_experts
上下文长度	262,144 tokens (256K)	max_position_embeddings
词表大小	262,144	vocab_size
滑动窗口	1024 tokens	sliding_window
注意力模式	Hybrid	Sliding + Full Attention 交错
位置编码	p-RoPE (Proportional RoPE)	比例旋转位置编码
激活函数	gelu_pytorch_tanh	激活函数
数据类型	bfloat16	基础计算精度

2.2 多模态配置

组件	参数	说明
Vision Encoder	Gemma4VisionEncoder	视觉编码器
Vision 隐藏层	1152	vision_config.hidden_size
Vision 层数	27	vision 独立 Transformer
Vision 头数	16	vision attention heads
Patch Size	16	图像分块大小
视觉软令牌	280 tokens/图	vision_soft_tokens_per_image
特殊 Token	boi/boa/eoi/eoa	图像起始/结束标记

2.3 量化配置 (NVFP4)

配置项	值	说明
量化算法	NVFP4	NVIDIA 专有 4-bit 浮点量化
量化工具	modelopt 0.43.0rc2	NVIDIA Model Optimizer
权重量化	4-bit float, group_size=16	逐组 NVFP4
激活量化	4-bit float, group_size=16	逐组 NVFP4
KV Cache 量化	FP8	8-bit 浮点 KV Cache
排除模块	lm_head, vision_tower, 部分 layers	保持原精度模块
校准数据	cnn_dailymail, Nemotron-v2	校准数据集

⚠️ 关键发现: NVFP4 为 NVIDIA Blackwell 架构专有量化格式，当前昇腾 NPU (910B4) 无原生硬件解码支持。

三、模型加载测试

3.1 服务启动尝试

启动命令:

vllm serve . \
  --host 0.0.0.0 \
  --port 9000 \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --trust-remote-code \
  --gpu-memory-utilization 0.85

3.2 启动日志与错误分析

INFO  Platform plugin ascend is activated
INFO  Registered model loader netloader / rfork
INFO  vLLM 0.18.0, model .

Traceback (most recent call last):
  ...
  pydantic_core._pydantic_core.ValidationError: 1 validation error for ModelConfig
  Value error, The checkpoint you are trying to load has model type `gemma4`
  but Transformers does not recognize this architecture.

错误类型: ArchitectureNotSupported

根因分析:

Transformers 不支持: 当前安装的 Transformers 版本尚未注册 gemma4 模型类型
vLLM 未注册: vLLM-Ascend 后端未实现 Gemma4ForConditionalGeneration 模型类
NVFP4 格式障碍: 即使架构支持，NVFP4 权重格式也无法在昇腾 NPU 上解码
权重不可用: GitCode 仓库中 safetensors 为 LFS 指针文件，未包含实际权重

结论: ❌ 模型服务启动失败，无法加载

四、架构兼容性分析

4.1 vLLM-Ascend 支持矩阵

模型系列	支持状态	说明
Qwen3.5	✅ 支持	已验证 0.8B/27B/32B
Llama3 / Llama3.1	✅ 支持	官方支持
Gemma / Gemma2	⚠️ 部分支持	Gemma2 需确认
Gemma4	❌ 不支持	本模型架构暂不支持
Mixtral (MoE)	⚠️ 部分支持	MoE 路由需验证

4.2 技术架构兼容性逐项分析

特性	说明	昇腾兼容性	阻塞程度
Gemma4 架构	全新模型类型，需 Transformers + vLLM 双重支持	❌ 不支持	🔴 阻塞
NVFP4 量化	NVIDIA 专有 4-bit float，Blackwell 硬件依赖	❌ 不支持	🔴 阻塞
p-RoPE 位置编码	Proportional Rotary Position Embedding	⚠️ 未知	🟡 待验证
Hybrid Attention	Sliding (1024) + Full (全局) 交错	⚠️ 部分支持	🟡 待验证
MoE (128E/8A)	128 专家，top-8 路由	⚠️ 部分支持	🟡 待验证
FP8 KV Cache	8-bit 浮点 KV Cache	❌ 不支持	🟠 高优先级
Gemma4Vision	多模态视觉编码器 (27层)	⚠️ 未知	🟡 待验证
BF16 基础精度	bfloat16 计算	✅ 支持	🟢 无阻塞
GQA (8 KV heads)	分组查询注意力	✅ 支持	🟢 无阻塞

五、验证结论

5.1 适配状态评估

评估项	结果	依据
环境兼容性	✅ 合格	NPU 正常，vLLM-Ascend 已安装
模型架构兼容性	❌ 不兼容	Transformers 不支持 `gemma4` 类型
量化格式兼容性	❌ 不兼容	NVFP4 为 NVIDIA 专有格式
权重可用性	❌ 不可用	LFS 指针文件，实际权重未下载
运行时适配	❌ 失败	服务启动抛出 ValidationError
精度评估	⏭️ 跳过	服务未启动
性能基准	⏭️ 跳过	服务未启动

5.2 最终结论

Gemma-4-26B-A4B-NVFP4 模型在昇腾 NPU 上的适配状态为：❌ 暂不兼容

核心障碍:

🔴 架构未支持: gemma4 为新发布架构，Transformers 和 vLLM-Ascend 尚未适配
🔴 格式壁垒: NVFP4 量化格式绑定 NVIDIA Blackwell 硬件，昇腾无解码能力
🟠 生态差异: FP8 KV Cache、modelopt 量化方案等需昇腾侧重新实现

当前建议:

如需在 NVIDIA 平台运行，请使用 NVIDIA Blackwell GPU (如 B200)
如需昇腾部署，建议等待以下任一条件成熟:
- vLLM-Ascend 官方添加 Gemma4 架构支持
- Transformers 库支持 gemma4 模型类型
- Google 或社区发布 BF16/FP16 非量化版本
- 昇腾工具链支持 NVFP4/FP8 格式转换

六、适配建议与替代方案

6.1 短期方案 (等待社区支持)

# 关注以下仓库的更新，等待官方支持
# vLLM-Ascend: https://github.com/vllm-project/vllm-ascend
# Transformers: https://github.com/huggingface/transformers

6.2 中期方案 (格式转换)

如获取到 BF16 原始权重，可尝试:

# 1. 使用 msmodelslim 进行昇腾友好量化
pip install msmodelslim

# 2. 转换为 W8A8 (昇腾支持)
# 参考: https://gitee.com/ascend/msmodelslim
python convert_to_ascend_w8a8.py \
  --model /path/to/gemma-4-26b-bf16 \
  --output /path/to/gemma-4-26b-w8a8

# 3. 使用昇腾量化参数启动
vllm serve /path/to/gemma-4-26b-w8a8 \
  --host 0.0.0.0 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --quantization ascend \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.90 \
  --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}' \
  --async-scheduling

6.3 硬件要求参考 (若未来适配成功)

配置	推荐值	说明
NPU	Atlas 800 A2 (64G×8) 或 A3	26B 模型 + 256K 上下文需要大 HBM
TP 并行	2 或 4	根据序列长度调整
max-model-len	32768 ~ 131072	256K 全上下文需多卡
量化	ascend (W8A8)	替代 NVFP4
KV Cache	BF16 / INT8	替代 FP8

七、参考信息

7.1 官方文档

7.2 验证脚本

脚本	用途
`validator.py`	Python 验证编排器
`validation_report_gemma4_26b_nvfp4.json`	本次验证的完整 JSON 报告

7.3 相关模型对比

模型	参数量	量化	昇腾支持	备注
Qwen3.5-27B-w8a8	27B	W8A8	✅	已验证
Qwen3.5-0.8B	0.8B	BF16	✅	已验证
Gemma-2-27B	27B	BF16	⚠️	需确认
Gemma-4-26B-NVFP4	26B	NVFP4	❌	本报告

附录：验证命令日志

# 环境检查
$ npu-smi info
# 输出: 1x Ascend 910B4, Health OK

$ pip list | grep vllm
# 输出: vllm 0.18.0+empty, vllm_ascend 0.18.0rc1

# 模型配置获取
$ git clone https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4.git
# 输出: 克隆成功，获取 config.json / hf_quant_config.json

# 服务启动尝试
$ vllm serve . --host 0.0.0.0 --port 9000 --tensor-parallel-size 1 \
    --max-model-len 4096 --trust-remote-code --gpu-memory-utilization 0.85
# 输出: ValidationError - model type 'gemma4' not recognized by Transformers

报告生成时间: 2026-05-11 UTC 验证工具版本: ascend-model-verification v1.0.0 GitCode 仓库: https://gitcode.com/hf_mirrors/nvidia/Gemma-4-26B-A4B-NVFP4