模型概述

描述：

Gemma 4 26B IT 是由 Google DeepMind 构建的开源多模态模型，可处理文本和图像输入，能将视频作为帧序列进行处理，并生成文本输出。该模型旨在消费级 GPU 和工作站上提供前沿水平的推理、智能体工作流、编码和多模态理解性能，具备 256K token 的上下文窗口，并支持超过 140 种语言。模型采用混合注意力机制，交错使用局部滑动窗口和全局全注意力，在全局层中使用统一的键（Keys）和值（Values），并结合比例旋转位置编码（Proportional RoPE，p-RoPE）以支持长上下文性能。NVIDIA Gemma 4 26B IT NVFP4 模型通过 NVIDIA Model Optimizer 进行量化。

本模型可用于商业/非商业用途。

第三方社区考量

本模型并非由 NVIDIA 拥有或开发。该模型是根据第三方的特定应用和使用场景需求开发构建的；请参阅非 NVIDIA 的 Gemma 4 26B IT 模型卡片链接。

许可协议与使用条款：

Apache License 2.0 | Gemma | Google AI for Developers

部署地区：

全球

使用场景：

使用场景： 适用于文本生成、聊天机器人与对话式 AI、文本摘要、图像数据提取、推理、编码、多模态理解、函数调用以及研究或教育用途。

发布日期：

Hugging Face [2026年4月30日]，链接：https://huggingface.co/nvidia/Gemma-4-26B-A4B-NVFP4

模型架构：

属性	26B A4B MoE
架构类型：	Transformers
总参数	252 亿
激活参数	38 亿
层数	30
滑动窗口	1024 tokens
上下文长度	256K tokens
词汇表大小	262K
专家数量	8 个激活 / 128 个总数及 1 个共享
支持的模态	文本、图像
视觉编码器参数	约 5.5 亿

26B A4B 中的 “A” 代表 “激活参数”，与模型包含的总参数数量相对。

输入：

输入类型： 处理文本、支持可变宽高比和分辨率的图像（所有模型）、视频以及音频（E2B 和 E4B 模型原生支持）。
输入格式： 字符串、红、绿、蓝（RGB）、视频（MP4/WebM）
输入参数： 一维（1D）、二维（2D）、三维（3D）
与输入相关的其他特性： 支持可变图像宽高比和分辨率，可配置的视觉令牌预算为 70、140、280、560 和 1120，视频输入最长 60 秒，帧率为每秒一帧。
输入上下文长度（ISL）： 256K

输出：

输出类型： 文本
输出格式： 字符串
输出参数： 1D（一维）：序列
与输出相关的其他特性： 为聊天、推理、编码、多模态理解和函数调用工作流生成文本响应。启用思考功能时，模型还会输出推理令牌。

我们的 AI 模型旨在和/或优化用于 NVIDIA GPU 加速系统。通过利用 NVIDIA 的硬件（例如 GPU 核心）和软件框架（例如 CUDA 库），与仅使用 CPU 的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成：

支持的运行时引擎：

vLLM

支持的硬件微架构兼容性：
NVIDIA Blackwell

推荐操作系统：

Linux

模型版本：

模型版本为 v1.0，已使用 nvidia-modelopt v0.43.0 进行 NVFP4 量化

训练、测试和评估数据集：

我们使用下述数据集对模型进行了校准，并使用评估数据集下所述的基准进行了评估。我们未对此次模型优化器版本进行训练或测试。以下训练和测试数据集下所述的方法代表第三方用于训练和测试基础 Gemma 4 26B IT 模型的数据收集和标注方法。

校准数据集：

链接： cnn_dailymail、Nemotron-Post-Training-Dataset-v2
数据集的数据收集方法： 自动化。
数据集的标注方法： 自动化。
特性： cnn_dailymail 数据集包含英文新闻文章及摘要。Nemotron-Post-Training-Dataset-v2 是由 NVIDIA 精心整理的训练后数据集，包含涵盖多种主题的多轮对话。

训练数据集 数据模态： 文本、图像、音频、其他（代码）
训练数据收集： 自动化
训练标注： 未公开
训练特性： 大规模多模态预训练数据，涵盖网络文档、代码、图像和音频，数据截止日期为 2025 年 1 月，覆盖超过 140 种语言。数据均经过筛选，以排除儿童性虐待材料（CSAM）、敏感数据，并确保质量与安全性。

测试数据集 测试数据收集： 未公开
测试标注： 未公开
测试特性： 未公开

评估数据集：

数据集的数据收集方法： 混合：人工、自动化
数据集的标注方法： 混合：人工、自动化
特性： 我们在基于文本的推理和编码基准上对模型进行了评估：MMLU Pro 是一个多任务语言理解基准，包含跨多个学术领域的具有挑战性的多项选择题；LiveCodeBench V6 包含竞争性编程问题；SciCode 评估科学编码能力；IFEval 是一个测试语言模型是否能够遵循内容生成提示之上的明确、可验证的格式和结构约束的基准；GPQA Diamond 包含 448 道由生物学、物理学和化学领域专家编写的研究生级多项选择题；AIME 2025 包含美国数学邀请赛的题目；IFBench 是一个用于评估在各种结构化任务约束下指令遵循能力的基准。

推理：

引擎： vLLM
测试硬件： B200

训练后量化

此模型通过将Gemma-4-26B-IT-NVFP4的权重和激活量化为NVFP4数据类型（使用nvfp4_experts_only方案）获得，可使用vLLM进行推理。

使用方法

目前，对于此模型，vllm仅支持TP=1，不支持EP，vLLM和Flashinfer中存在相关未解决问题。
此外，当前的MoE后端为VLLM_CUTLASS或Marlin，若要使用Flashinfer-TRTLLM，vLLM中存在一个未合并的PR。

如需使用vLLM部署此 checkpoint，请运行以下示例命令。

vllm serve nvidia/Gemma-4-26B-A4B-NVFP4 \
  --tool-call-parser gemma4 \
  --reasoning-parser gemma4 \
  --enable-auto-tool-choice \
  --trust-remote-code

评估结果：

基准测试	基线（全精度）	NVFP4
GPQA Diamond	80.30%	79.90%
AIME 2025	88.95%	90.00%
MMLU Pro	85.00%	84.80%
LiveCodeBench（pass@1）	80.50%	79.80%
IFBench	77.77%	78.1%
IFEval	96.60%	96.40%

基线：Gemma-4-26B-A4B-it-bf16
基准测试参数：temperature=1.0，top_p=0.95，max_new_tokens=131072

模型局限性：

基础模型的训练数据包含从互联网上抓取的有毒语言和社会偏见。因此，该模型可能会放大这些偏见，并在收到有毒提示时返回有毒响应。即使提示本身不包含任何明确冒犯性内容，模型生成的答案也可能不准确、遗漏关键信息，或包含无关、冗余的文本，从而产生社会不可接受或不受欢迎的内容。

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持广泛 AI 应用的开发。当根据我们的服务条款下载或使用本模型时，开发者应与其内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对不可预见的产品误用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和许可；如果图像或视频包含人物、个人健康信息或知识产权，生成的图像或视频不会模糊或保持所包含图像主体的比例。

请通过此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。