模型概述

描述：

Gemma 4 31B IT 是由 Google DeepMind 构建的开放式多模态模型，可处理文本和图像输入，能将视频作为帧序列进行处理，并生成文本输出。该模型旨在消费级 GPU 和工作站上提供前沿级别的推理、智能体工作流、编码和多模态理解性能，具备 256K token 的上下文窗口，并支持超过 140 种语言。模型采用混合注意力机制，交错使用局部滑动窗口和全局全注意力，在全局层中使用统一的键（Keys）和值（Values），并通过比例旋转位置编码（Proportional RoPE, p-RoPE）来支持长上下文性能。NVIDIA Gemma 4 31B IT NVFP4 模型已通过 NVIDIA Model Optimizer 进行量化。

本模型可用于商业/非商业用途。

第三方社区考量

本模型不由 NVIDIA 拥有或开发。本模型是根据第三方对本应用和使用场景的要求开发和构建的；请参见非 NVIDIA 的 Gemma 4 31B IT 模型卡片链接。

许可和使用条款：

Apache License 2.0 | Gemma | Google AI for Developers

部署地区：

全球

用例：

用例： 适用于文本生成、聊天机器人和对话式 AI、文本摘要、图像数据提取、推理、编码、多模态理解、函数调用以及研究或教育用途。

发布日期：

Hugging Face [2026年4月2日] via [链接] (https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4)

模型架构：

架构类型： Transformer
网络架构： Gemma 4
模型参数数量： 307 亿 词汇表大小： 262,144

输入：

输入类型： 文本、图像、视频
输入格式： 字符串、红绿蓝（RGB）、视频（MP4/WebM）
输入参数： 一维（1D）、二维（2D）、三维（3D）
与输入相关的其他属性： 支持可变图像宽高比和分辨率，可配置的视觉 token 预算为 70、140、280、560 和 1120，以及最长 60 秒、每秒一帧的视频输入。
输入上下文长度（ISL）： 256K

输出：

输出类型： 文本
输出格式： 字符串
输出参数： 一维：序列
与输出相关的其他属性： 为聊天、推理、编码、多模态理解和函数调用工作流生成文本响应。

我们的 AI 模型经过设计和/或优化，可在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件（例如 GPU 核心）和软件框架（例如 CUDA 库），与仅使用 CPU 的解决方案相比，该模型实现了更快的训练和推理时间。

软件集成：

支持的运行时引擎：

vLLM

支持的硬件微架构兼容性：
NVIDIA Blackwell

推荐的操作系统：

Linux

模型版本：

模型版本为 v1.0，已使用 nvidia-modelopt v0.42.0 进行 NVFP4 量化

训练、测试和评估数据集：

我们使用下面注明的数据集对模型进行了校准，并使用评估数据集下注明的基准进行了评估。我们未对此次模型优化器版本进行训练或测试。以下在训练和测试数据集下注明的方法代表第三方用于训练和测试基础 Gemma 4 31B IT 模型的数据收集和标注方法。

校准数据集：

链接： cnn_dailymail
数据集的数据收集方法： 自动化。
数据集的标注方法： 自动化。
属性： cnn_dailymail 数据集是一个英语语言数据集，包含略多于 30 万篇由 CNN 和《每日邮报》记者撰写的独特新闻文章。

训练数据集 数据模态： 文本、图像、音频、其他（代码）
训练数据收集： 自动化
训练标注： 未公开
训练属性： 大规模多模态预训练数据，涵盖网络文档、代码、图像和音频，截止日期为 2025 年 1 月，覆盖超过 140 种语言。数据已针对儿童性虐待材料（CSAM）、敏感数据、质量和安全性进行了过滤。

测试数据集 测试数据收集： 未公开
测试标注： 未公开
测试属性： 未公开

评估数据集：

数据集的数据收集方法： 混合：人工、自动化
数据集的标注方法： 混合：人工、自动化
特性： 我们在包括 GPQA 在内的基准测试上对模型进行了评估，GPQA 是一个包含 448 道多项选择题的数据集，由生物学、物理学和化学领域的专家编写。

推理：

引擎： vLLM
测试硬件： NVIDIA Hopper H100

训练后量化

本模型通过将 Gemma-4-31B-IT-NVFP4 的权重和激活量化为 NVFP4 数据类型获得，可使用 vLLM 进行推理。

使用方法

要使用 vLLM 部署此检查点，请运行以下示例命令：

vllm serve /models/gemma-4-31b-it-nvfp4 --quantization modelopt --tensor-parallel-size 8

评估结果：

基准测试	基准模型（BF16）	NVFP4
GPQA Diamond	75.71%	75.46%
AIME 2025	66.25%	65.94%
MMLU Pro	85.25%	84.94%
LiveCodeBench（pass@1）	70.90%	70.63%
Scicode 子任务准确率（pass@1）	33.61%	33.18%
Terminal-Bench Hard（pass@1）	27.08%	27.08%

模型局限性：

基础模型的训练数据包含从互联网上抓取的有毒语言和社会偏见内容。因此，该模型可能会放大这些偏见，尤其是在收到有毒提示时可能返回有毒响应。即使提示本身不包含任何明确冒犯性内容，模型生成的答案也可能不准确、遗漏关键信息，或包含无关、冗余的文本，从而产生社会不可接受或不受欢迎的内容。

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持广泛 AI 应用的开发。当根据我们的服务条款下载或使用本模型时，开发人员应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对不可预见的产品误用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和许可；如果图像或视频中包含人物、个人健康信息或知识产权，生成的图像或视频不会模糊或保持所包含图像主体的比例。

如发现模型质量、风险、安全漏洞或 NVIDIA AI 相关问题，请通过此处报告。