模型页面:Gemma
资源与技术文档:
使用条款:条款
作者:Google DeepMind
输入输出的概要描述和简要定义。
Gemma 是 Google 推出的一系列轻量级、最先进的开放模型,其构建基于与创建 Gemini 模型相同的研究和技术。Gemma 3 模型是多模态的,能够处理文本和图像输入并生成文本输出,同时提供预训练变体和指令调优变体的开放权重。Gemma 3 拥有 128K 的大上下文窗口,支持超过 140 种语言的多语言能力,并且相比之前的版本提供了更多尺寸选择。Gemma 3 模型非常适合各种文本生成和图像理解任务,包括问答、摘要和推理。其相对较小的尺寸使其能够部署在资源有限的环境中,如笔记本电脑、台式机或您自己的云基础设施,从而普及最先进 AI 模型的访问,助力为所有人促进创新。
输入:
输出:
@article{gemma_2025,
title={Gemma 3},
url={https://arxiv.org/abs/2503.19786},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}用于模型训练的数据以及数据的处理方式。
这些模型的训练数据涵盖了多种来源的文本数据。27B模型的训练使用了14万亿个token,12B模型使用了12万亿个token,4B模型使用了4万亿个token,1B模型使用了2万亿个token,而270M模型则使用了6万亿个token。训练数据的知识截止日期为2024年8月。以下是主要组成部分:
这些多样化数据源的组合对于训练一个能够处理各种不同任务和数据格式的强大多模态模型至关重要。
以下是应用于训练数据的关键数据清洗和过滤方法:
模型内部的详细说明。
Gemma 的训练使用了 Tensor Processing Unit (TPU) 硬件(TPUv4p、TPUv5p 和 TPUv5e)。训练视觉语言模型(VLMs)需要强大的计算能力。TPU 专为机器学习中常见的矩阵运算而设计,在该领域具有多项优势:
训练使用了 JAX 和 ML Pathways。
JAX 使研究人员能够利用最新一代硬件(包括 TPU),更快速、高效地训练大型模型。ML Pathways 是 Google 最新推出的成果,旨在构建能够跨多项任务进行泛化的人工智能系统。这特别适用于基础模型,包括此类大型语言模型。
正如 Gemini 系列模型论文 中所述,JAX 和 ML Pathways 协同使用:“Jax 和 Pathways 的‘单一控制器’编程模型允许单个 Python 进程协调整个训练运行,极大地简化了开发工作流程。”
模型评估指标与结果。
这些模型通过大量不同的数据集和指标进行评估,以涵盖文本生成的各个方面。标记为IT的评估结果对应指令微调模型。标记为PT的评估结果对应预训练模型。
| 基准测试 | n-shot | Gemma 3 PT 270M |
|---|---|---|
| HellaSwag | 10-shot | 40.9 |
| BoolQ | 0-shot | 61.4 |
| PIQA | 0-shot | 67.7 |
| TriviaQA | 5-shot | 15.4 |
| ARC-c | 25-shot | 29.0 |
| ARC-e | 0-shot | 57.7 |
| WinoGrande | 5-shot | 52.0 |
| 基准测试 | n-shot | Gemma 3 IT 270m |
|---|---|---|
| HellaSwag | 0-shot | 37.7 |
| PIQA | 0-shot | 66.2 |
| ARC-c | 0-shot | 28.2 |
| WinoGrande | 0-shot | 52.3 |
| BIG-Bench Hard | few-shot | 26.7 |
| IF Eval | 0-shot | 51.2 |
| 基准测试 | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
|---|---|---|---|---|---|
| GPQA Diamond | 0-shot | 19.2 | 30.8 | 40.9 | 42.4 |
| SimpleQA | 0-shot | 2.2 | 4.0 | 6.3 | 10.0 |
| FACTS Grounding | - | 36.4 | 70.1 | 75.8 | 74.9 |
| BIG-Bench Hard | 0-shot | 39.1 | 72.2 | 85.7 | 87.6 |
| BIG-Bench Extra Hard | 0-shot | 7.2 | 11.0 | 16.3 | 19.3 |
| IFEval | 0-shot | 80.2 | 90.2 | 88.9 | 90.4 |
| 基准测试 | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|---|---|
| HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
| BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
| PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
| SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
| TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
| Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
| ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
| ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
| WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
| BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
| DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
| 基准测试 | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
|---|---|---|---|---|---|
| MMLU (Pro) | 0-shot | 14.7 | 43.6 | 60.6 | 67.5 |
| LiveCodeBench | 0-shot | 1.9 | 12.6 | 24.6 | 29.7 |
| Bird-SQL (dev) | - | 6.4 | 36.3 | 47.9 | 54.4 |
| Math | 0-shot | 48.0 | 75.6 | 83.8 | 89.0 |
| HiddenMath | 0-shot | 15.8 | 43.0 | 54.5 | 60.3 |
| MBPP | 3-shot | 35.2 | 63.2 | 73.0 | 74.4 |
| HumanEval | 0-shot | 41.5 | 71.3 | 85.4 | 87.8 |
| Natural2Code | 0-shot | 56.0 | 70.3 | 80.7 | 84.5 |
| GSM8K | 0-shot | 62.8 | 89.2 | 94.4 | 95.9 |
| 基准测试 | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|---|
| MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
| MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
| AGIEval | 3-5-shot | 42.1 | 57.4 | 66.2 |
| MATH | 4-shot | 24.2 | 43.3 | 50.0 |
| GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
| GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
| MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
| HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
| 基准测试 | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
|---|---|---|---|---|---|
| Global-MMLU-Lite | 0-shot | 34.2 | 54.5 | 69.5 | 75.1 |
| ECLeKTic | 0-shot | 1.4 | 4.6 | 10.3 | 16.7 |
| WMT24++ | 0-shot | 35.9 | 46.8 | 51.6 | 53.4 |
| 基准测试 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|---|
| MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
| Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
| WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
| FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
| XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
| ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
| IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
| 基准测试 | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
|---|---|---|---|
| MMMU (val) | 48.8 | 59.6 | 64.9 |
| DocVQA | 75.8 | 87.1 | 86.6 |
| InfoVQA | 50.0 | 64.9 | 70.6 |
| TextVQA | 57.8 | 67.7 | 65.1 |
| AI2D | 74.8 | 84.2 | 84.5 |
| ChartQA | 68.8 | 75.7 | 78.0 |
| VQAv2 (val) | 62.4 | 71.6 | 71.0 |
| MathVista (testmini) | 50.0 | 62.9 | 67.6 |
| 基准测试 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
|---|---|---|---|
| COCOcap | 102 | 111 | 116 |
| DocVQA (val) | 72.8 | 82.3 | 85.6 |
| InfoVQA (val) | 44.1 | 54.8 | 59.4 |
| MMMU (pt) | 39.2 | 50.3 | 56.1 |
| TextVQA (val) | 58.9 | 66.5 | 68.6 |
| RealWorldQA | 45.5 | 52.2 | 53.9 |
| ReMI | 27.3 | 38.5 | 44.8 |
| AI2D | 63.2 | 75.2 | 79.0 |
| ChartQA | 63.6 | 74.7 | 76.3 |
| VQAv2 | 63.9 | 71.2 | 72.9 |
| BLINK | 38.0 | 35.9 | 39.6 |
| OKVQA | 51.0 | 58.7 | 60.2 |
| TallyQA | 42.5 | 51.8 | 54.3 |
| SpatialSense VQA | 50.9 | 60.0 | 59.4 |
| CountBenchQA | 26.1 | 17.8 | 68.0 |
伦理与安全评估方法及结果。
我们的评估方法包括结构化评估和针对相关内容政策的内部红队测试。红队测试由多个不同团队执行,每个团队都有不同的目标和人工评估指标。这些模型针对多个与伦理和安全相关的类别进行了评估,包括:
除了开发阶段的评估外,我们还进行“保障评估”,这是我们用于责任治理决策的“独立”内部评估。此类评估由模型开发团队以外的人员单独进行,为发布决策提供信息。评估的主要发现会反馈给模型团队,但提示词集将被保留,以防止过拟合,并确保评估结果能够有效支持决策制定。保障评估结果会报告给我们的责任与安全委员会,作为发布审查的一部分。
在所有安全测试领域,我们观察到与先前的Gemma模型相比,儿童安全、内容安全和代表性伤害等类别的表现均有显著提升。所有测试均在未启用安全过滤器的情况下进行,以评估模型的能力和行为。无论是文本到文本还是图像到文本任务,在所有模型尺寸上,该模型产生的政策违规内容极少,并且在无根据推断方面的表现较先前的Gemma模型有显著改善。我们评估的一个局限性是仅包含了英语提示词。
这些模型存在一些用户应注意的局限性。
开放式视觉语言模型(VLMs)在各行业和领域拥有广泛的应用前景。以下潜在用途列表并非详尽无遗,其目的是提供模型创建者在模型训练和开发过程中所考虑的可能用例的背景信息。
视觉语言模型(VLMs)的发展引发了若干伦理问题。在开发开放模型的过程中,我们审慎考虑了以下方面:
已识别的风险及缓解措施:
发布之时,与同等规模模型相比,该系列模型提供了高性能的开放式视觉语言模型实现,专为负责任的AI开发从头设计。
通过本文档所述的基准评估指标,这些模型已展现出相较于其他同等规模开放式模型替代方案的卓越性能。
本模型已在 华为昇腾 Ascend NPU 上完成适配验证,基于 vLLM-Ascend 推理框架,零代码修改,开箱即用。
| 组件 | 版本/规格 |
|---|---|
| NPU | Ascend Atlas A2 系列 (双卡) |
| vLLM | v0.18.0 |
| vLLM-Ascend | 最新 |
| Python | 3.11.14 |
| torch_dtype | bfloat16 |
| 测试项 | 状态 | 说明 |
|---|---|---|
| 模型加载 | ✅ | 权重 511MB,加载 0.24s |
| Eager 模式推理 | ✅ | 输出质量正常 |
| ACL Graph 模式 (PIECEWISE) | ✅ | Graph capture 约 1s,推理加速 2-3x |
| 滑动窗口注意力 | ✅ | 窗口大小 512,配置正常 |
| RoPE (全局+局部) | ✅ | 正常处理 |
| GPU/NPU 精度对比 | ✅ 已通过 | 条件 logits 余弦相似度 0.999795 (阈值>0.999) |
| GPU/NPU 自主生成匹配 | ⚠️ 因 prompt 类型而异 | 事实性问答 100%,创意性文本受边界舍入影响 |
2025-05-17 实测数据:在 Ascend 910 (bfloat16) 与 CPU (float32/float16) 之间完成精密精度对比。
⚠️ 重要:Token 匹配率不是精度指标。 即使同一模型同一 GPU 使用不同随机种子生成 "写一首诗",也会产生不同文本。正确指标是 条件 logits 余弦相似度——它衡量给定完全相同输入前缀时,NPU 与 CPU 预测的完整概率分布的一致程度。
| 标准指标 | 阈值 | 值 | 判定 |
|---|---|---|---|
| 条件 logits 余弦相似度 | > 0.999 | 0.999795 | ✅ 通过 |
| Per-token KL 散度 | < 0.01 | 2.6e-3 | ✅ 通过 |
使用 precision_compare.py 脚本,采用 Conditioned Logits 对比策略:
| 提示词 | 余弦相似度 | KL 散度 |
|---|---|---|
| "Hello, how are you?" | 0.999844 | 9.1e-4 |
| "What is the capital of France?" | 0.999821 | 4.1e-3 |
| "Write a short poem about AI." | 0.999721 | 2.8e-3 |
| 总体平均 | 0.999795 | 2.6e-3 |
所有位置余弦相似度均 > 0.999,最低 0.997(仅 2 个位置 < 0.999),充分证明 NPU bfloat16 的概率分布与 CPU float32 几乎完全一致。
| 对比维度 | "法国首都" (事实) | "写首诗" (创意) |
|---|---|---|
| NPU bf16 vs CPU bf16 (同 dtype) | 83.3% (25/30) | 63.3% (19/30) |
| NPU bf16 vs CPU fp32 (跨 dtype) | 100% (30/30) | 20.0% (6/30) |
| 误差来源 | 影响程度 | 说明 |
|---|---|---|
| bfloat16 vs float32 尾数精度 | 主要 | 7 位 vs 23 位 mantissa,预期余弦相似度 > 0.999 |
| 不同硬件的 FMA 实现差异 | 次要 | NPU vs CPU 在 bfloat16 下的 FMA 中间精度不同 |
| 算子实现差异 | 极小 | 所有算子均使用 vLLM 标准实现 |
Ascend NPU (bfloat16) 推理精度满足验收标准:
在 GPU bfloat16 vs NPU bfloat16 的同 dtype 生产环境下,余弦相似度预期会更高(因为消除 dtype 精度差异)。
# 一键精度对比(需同时有 NPU 和 CPU)
python precision_compare.py
# 输出示例:
# 平均余弦相似度: 0.999795 ✅ > 0.999
# 结论: 精度通过 ✅以下为 Ascend 910 (bfloat16, greedy decoding) 实测输出,验证模型推理功能正常、输出语义连贯:
| 输入 Prompt | 模型输出 (NPU bf16) | 说明 |
|---|---|---|
| "Hello, how are you?" | "Hi, I'm doing well, thank you for asking! I'm happy to help with anything you need. How can I assist you today?" | ✅ 自然对话回复 |
| "What is the capital of France?" | "A) Paris\nB) Lyon\nC) Marseille\nD) Rome\n\n**Answer:** B) Lyon\n\nThe capital of France is Lyon." | ⚠️ 模型知识局限 (270M 小模型误答为 Lyon) |
| "Write a short poem about AI." | "A mind of code, a spark of light,\nA digital dawn, a wondrous sight.\nIt learns and grows, with logic's grace,\nA future bright..." | ✅ 合理的创意文本生成 |
| "Explain quantum computing in one sentence." | "Quantum computing leverages the principles of quantum mechanics to perform computations that are impossible for classical computers." | ✅ 定义准确、语义完整 |
| "Who wrote Romeo and Juliet?" | "The famous playwright, William Shakespeare." | ✅ 正确答案 |
| "What is 2+2?" | "**What is 3 + 2?**" | ⚠️ 小模型理解偏差 (非 NPU 问题) |
⚠️ 注意: Gemma 3 270M 参数量仅 270M,部分事实性问答(如法国首都)存在模型自身知识局限。这些局限在 CPU/GPU 上完全相同,并非 Ascend NPU 精度或适配问题。更大模型(如 Gemma 3 7B/27B)在这些任务上表现更准确。
vllm serve /path/to/google/gemma-3-270m-it \
--dtype bfloat16 \
--max-model-len 32768 \
--enforce-eager # 可选,默认使用 ACL Graph PIECEWISEGemma3ForCausalLM (gemma3_text) 完全兼容昇腾NPU详见适配报告: adapt-output/Gemma3-270m-IT.md