PaliGemma 2 模型卡片

模型页面: PaliGemma

Transformers PaliGemma 2 3B 权重版本，采用 448*448 输入图像和 512 个令牌的输入/输出文本序列进行预训练。该模型提供 bfloat16 格式用于微调。

资源与技术文档:

使用条款: 条款

作者: Google

模型信息

模型概要

PaliGemma 2 是 PaliGemma 视觉语言模型（VLM）的升级版本，融合了 Gemma 2 模型的能力。PaliGemma 系列模型受 PaLI-3 启发，基于开源组件构建，包括 SigLIP 视觉模型和 Gemma 2 语言模型。该模型支持图像和文本双模态输入，并生成文本输出，具备多语言处理能力。其设计目标是在图像及短视频描述、视觉问答、文本阅读、目标检测与目标分割等广泛视觉语言任务上实现顶尖的微调性能。

模型架构

PaliGemma 2 由 Transformer 解码器和视觉 Transformer 图像编码器组合构成。文本解码器初始化自参数规模为 2B、9B 和 27B 的 Gemma 2 模型。图像编码器初始化自 SigLIP-So400m/14 模型。与原始 PaliGemma 模型类似，PaliGemma 2 遵循 PaLI-3 方案进行训练。

输入与输出

输入: 图像与文本字符串，例如描述图像的提示词或问题
输出: 根据输入生成的响应文本，包括图像描述、问题答案、目标边界框坐标列表或分割编码字

引用文献

@article{
    title={PaliGemma 2: A Family of Versatile VLMs for Transfer},
    author={Andreas Steiner and André Susano Pinto and Michael Tschannen and Daniel Keysers and Xiao Wang and Yonatan Bitton and Alexey Gritsenko and Matthias Minderer and Anthony Sherbondy and Shangbang Long and Siyang Qin and Reeve Ingle and Emanuele Bugliarello and Sahar Kazemzadeh and Thomas Mesnard and Ibrahim Alabdulmohsin and Lucas Beyer and Xiaohua Zhai},
    year={2024},
    journal={arXiv preprint arXiv:2412.03555}
}

模型数据

预训练数据集

PaliGemma 2 基于以下混合数据集进行预训练：

WebLI： WebLI（网络语言图像）是从公共网络构建的大规模多语言图文数据集。通过使用多种 WebLI 数据子集，模型获得了视觉语义理解、目标定位、视觉文本理解及多语言处理等多样化能力。
CC3M-35L： 从网页中精选的英文图像-替代文本对（Sharma 等人, 2018）。我们使用 Google Cloud Translation API 将其翻译为另外 34 种语言。
VQ²A-CC3M-35L/VQG-CC3M-35L： VQ2A-CC3M 的子集（Changpinyo 等人, 2022a），通过 Google Cloud Translation API 翻译为与 CC3M-35L 相同的 34 种附加语言。
OpenImages： 基于 OpenImages 数据集通过手工规则生成的检测与目标感知问答数据（Piergiovanni 等人 2022）。
WIT： 从维基百科收集的图像和文本（Srinivasan 等人, 2021）。

PaliGemma 2 基于 Gemma 2 构建，您可在 Gemma 2 模型卡片中查看 Gemma 2 的预训练数据集信息。

数据责任过滤

为确保 PaliGemma 2 基于安全可靠的数据进行训练，我们对 WebLI 数据应用了以下过滤措施：

色情图像过滤： 该过滤器会移除被判定为色情性质的图像。
文本安全过滤： 我们识别并过滤与不安全文本配对的图像。不安全文本包括涉及儿童性虐待影像（CSAI）、色情内容、粗俗言语或其他冒犯性内容。
文本毒性过滤： 我们进一步使用 Perspective API 识别并过滤与具有侮辱性、淫秽、仇恨或其他毒性文本配对的图像。
文本个人信息过滤： 我们使用 Cloud Data Loss Prevention (DLP) API 过滤特定个人信息及其他敏感数据，以保护个人隐私。已移除社会保障号码等标识符及其他敏感信息类型。
附加方法： 根据我们的政策与实践，基于内容质量与安全性进行过滤。

在 Transformers 中使用

以下代码片段以参考为目的使用 google/paligemma2-3b-pt-448 模型。这是一个基础模型，建议在下游任务上完成微调后使用。

此处提供展示 PaliGemma 2 微调过程的 notebook 供参考。

from transformers import (
    PaliGemmaProcessor,
    PaliGemmaForConditionalGeneration,
)
from transformers.image_utils import load_image
import torch

model_id = "google/paligemma2-3b-pt-448"

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/car.jpg"
image = load_image(url)

model = PaliGemmaForConditionalGeneration.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto").eval()
processor = PaliGemmaProcessor.from_pretrained(model_id)

# Leaving the prompt blank for pre-trained models
prompt = ""
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(torch.bfloat16).to(model.device)
input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
    decoded = processor.decode(generation, skip_special_tokens=True)
    print(decoded)

实现信息

硬件配置

PaliGemma 2 采用最新一代张量处理单元（TPUv5e）进行训练。

软件框架

训练使用 JAX、Flax、TFDS 及 big_vision 完成。

JAX 使研究人员能够充分利用包括 TPU 在内的最新硬件优势，实现大模型更快速高效的训练。TFDS 用于访问数据集，Flax 用于构建模型架构。PaliGemma 2 的微调代码与推理代码已发布于 big_vision GitHub 代码库。

评估信息

基准测试结果

为验证 PaliGemma 2 在各类学术任务中的迁移能力，我们在每个任务上对预训练模型进行微调。通过报告不同分辨率下的结果，展示哪些任务能从更高分辨率中受益。需特别说明的是，这些任务及数据集均未包含在预训练数据混合集中，且其图像已明确从网络级预训练数据中移除。

PaliGemma 2 各模型分辨率与规模性能对比

基准测试项目	224-3B	224-10B	224-28B	448-3B	448-10B	448-28B
AI2D	74.7	83.1	83.2	76.0	84.4	84.6
AOKVQA-DA (验证集)	64.2	68.9	70.2	67.9	70.8	71.2
AOKVQA-MC (验证集)	79.7	83.7	84.7	82.5	85.9	87.0
ActivityNet-CAP	34.2	35.9	-	-	-	-
ActivityNet-QA	51.3	53.2	-	-	-	-
COCO-35L (平均34)	113.9	115.8	116.5	115.8	117.2	117.2
COCO-35L (英文)	138.4	140.8	142.4	140.4	142.4	142.3
COCOcap	141.3	143.7	144.0	143.4	145.0	145.2
ChartQA (增强集)	74.4	74.2	68.9	89.2	90.1	85.1
ChartQA (人工集)	42.0	48.4	46.8	54.0	66.4	61.3
CountBenchQA	81.0	84.0	86.4	82.0	85.3	87.4
DocVQA (验证集)	39.9	43.9	44.9	73.6	76.6	76.1
GQA	66.2	67.2	67.3	68.1	68.3	68.3
InfoVQA (验证集)	25.2	33.6	36.4	37.5	47.8	46.7
MARVL (平均5)	83.5	89.5	90.6	82.7	89.1	89.7
MSRVTT-CAP	68.5	72.1	-	-	-	-
MSRVTT-QA	50.5	51.9	-	-	-	-
MSVD-QA	61.1	62.5	-	-	-	-
NLVR2	91.4	93.9	94.2	91.6	93.7	94.1
NoCaps	123.1	126.3	127.1	123.5	126.9	127.0
OCR-VQA	73.4	74.7	75.3	75.7	76.3	76.6
OKVQA	64.2	68.0	71.2	64.1	68.6	70.6
RSVQA-hr (测试集)	92.7	92.6	92.7	92.8	92.8	92.8
RSVQA-hr (测试集2)	90.9	90.8	90.9	90.7	90.7	90.8
RSVQA-lr	93.0	92.8	93.5	92.7	93.1	93.7
RefCOCO (测试集A)	75.7	77.2	76.8	78.6	79.7	79.3
RefCOCO (测试集B)	71.0	74.2	73.9	73.5	76.2	74.8
RefCOCO (验证集)	73.4	75.9	75.0	76.3	78.2	77.3
RefCOCO+ (测试集A)	72.7	74.7	73.6	76.1	77.7	76.6
RefCOCO+ (测试集B)	64.2	68.4	67.1	67.0	71.1	68.6
RefCOCO+ (验证集)	68.6	72.0	70.3	72.1	74.4	72.8
RefCOCOg (测试集)	69.0	71.9	70.7	72.7	74.8	73.7
RefCOCOg (验证集)	68.3	71.4	70.5	72.3	74.4	73.0
ST-VQA (验证集)	61.9	64.3	65.1	80.5	82.0	81.8
SciCap	165.1	159.5	156.9	183.3	177.2	172.7
ScienceQA	96.1	98.2	98.2	96.2	98.5	98.6
Screen2Words	113.3	117.8	122.8	114.0	119.1	123.4
TallyQA (复杂集)	70.3	73.4	74.2	73.6	76.7	76.8
TallyQA (简单集)	81.8	83.2	83.4	85.3	86.2	85.7
TextCaps	127.5	137.9	139.9	152.1	157.7	153.6
TextVQA (验证集)	59.6	64.0	64.7	75.2	76.6	76.2
VATEX	80.8	82.7	-	-	-	-
VQAv2 (最小验证集)	83.0	84.3	84.5	84.8	85.8	85.8
VizWizVQA (验证集)	76.4	78.1	78.7	77.5	78.6	78.9
WidgetCap	138.1	139.8	138.8	151.4	151.9	148.9
XM3600 (平均35)	42.8	44.5	45.2	43.2	44.6	45.2
XM3600 (英文)	79.8	80.7	81.0	80.3	81.5	81.0
xGQA (平均7)	58.6	61.4	61.1	60.4	62.6	62.1

补充基准测试

ICDAR 2015 incidental

模型	精确率	召回率	F1值
PaliGemma 2 3B	81.88	70.73	75.9

Total-Text

模型	精确率	召回率	F1值
PaliGemma 2 3B	73.8	74.54	74.17

FinTabNet

模型	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	99.18	98.94	99.43	99.21

PubTabNet

模型	S-TEDS	TEDS	GriTS-Top	GriTS-Con
PaliGemma 2 3B	97.6	97.31	97.99	97.84

GrandStaff

模型	字符错误率	行错误率	序列错误率
PaliGemma 2 3B	1.6	6.7	2.3

PubChem

PaliGemma 2 3B 完全匹配率：94.8

DOCCI

模型	平均字符数	平均句子数	非蕴含句占比
PaliGemma 2 3B	529	7.74	28.42%
PaliGemma 2 10B	521	7.45	20.27%

平均字符数：字符数量的平均值
平均句子数：句子数量的平均值
非蕴含句：非蕴含关系的句子占比

MIMIC-CXR

模型	CIDEr	BLEU4	Rouge-L	RadGraph F1
PaliGemma 2 3B	19.9%	14.6%	31.92%	28.8%
PaliGemma 2 10B	17.4%	15%	32.41%	29.5%

视觉空间推理

模型	VSR 零样本分割（测试集）	VSR 随机分割（测试集）
PaliGemma 2 3B	0.75	0.82
PaliGemma 2 10B	0.80	0.87

伦理与安全

评估方法

我们的评估方法包括针对相关内容政策的结构化伦理与安全评估，具体涵盖：

人工评估涉及儿童安全、内容安全和表征性危害的提示词。评估方法详见 Gemma 模型卡，但采用图像描述和视觉问答设置。
图像到文本基准评估：针对相关学术数据集（如 FairFace 数据集 [Karkkainen 等人，2021]）进行基准测试。

评估结果

伦理与安全评估的人工评估结果在可接受阈值内，符合内部政策对于儿童安全、内容安全和表征性危害等类别的要求。
除了稳健的内部评估外，我们还使用 Perspective API（阈值为 0.8）来测量来自 FairFace 数据集的图像生成描述中的毒性、污言秽语和其他潜在问题。我们报告了在感知性别、种族和年龄属性各子组中观察到的最大值和中位数。

指标	感知性别			种族			年龄组
模型规模	3B	10B	28B	3B	10B	28B	3B	10B	28B
	最大值
毒性	0.14%	0.15%	0.19%	0.29%	0.39%	0.39%	0.26%	0.18%	0.32%
身份攻击	0.04%	0.02%	0.02%	0.13%	0.06%	0.06%	0.06%	0.03%	0.06%
侮辱	0.17%	0.25%	0.17%	0.37%	0.52%	0.52%	0.27%	0.39%	0.24%
威胁	0.55%	0.43%	0.57%	0.83%	0.48%	0.48%	0.64%	0.43%	0.64%
污言秽语	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
	中位数
毒性	0.13%	0.10%	0.18%	0.07%	0.07%	0.14%	0.12%	0.08%	0.12%
身份攻击	0.02%	0.01%	0.02%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%
侮辱	0.15%	0.23%	0.14%	0.14%	0.17%	0.13%	0.09%	0.18%	0.16%
威胁	0.35%	0.27%	0.41%	0.28%	0.19%	0.42%	0.27%	0.31%	0.40%
污言秽语	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%	0.00%

使用范围与限制

预期用途

开放视觉语言模型（VLM）在各行业和领域具有广泛的应用前景。以下潜在用途列表并非详尽无遗，其目的在于提供模型创建者在训练和开发过程中考虑的可能用例背景信息。Gemma模型的禁止用途详见Gemma禁止使用政策。

特定视觉语言任务的微调：

预训练模型可针对多种视觉语言任务进行微调，包括：图像描述生成、短视频字幕生成、视觉问答、文本阅读、目标检测与目标分割
预训练模型可针对特定领域微调，例如遥感问答、视障人士视觉问题解答、科学问答、UI元素功能描述
预训练模型可适配非文本输出任务，例如边界框标注或分割掩码生成

视觉语言研究：

预训练模型与微调模型可作为研究人员实验VLM技术、开发算法并推动领域进步的基础工具

伦理考量与风险

视觉语言模型（VLM）的发展引发多项伦理问题。在开发开放模型过程中，我们已审慎考虑以下方面：

偏见与公平性
- 基于大规模真实世界图文数据训练的VLM可能反映训练材料中嵌入的社会文化偏见。这些模型经过严格审查，本文档阐述了输入数据预处理方法并报告了后续评估结果
错误信息与滥用
- VLM可能被滥用于生成虚假、误导性或有害文本
- 随模型提供了负责任使用指南，请参阅负责任生成式AI工具包
透明度与问责制
- 本模型卡片详细说明了模型架构、能力、限制及评估流程
- 通过负责任开发的开放模型，可促进创新共享，使AI生态中的开发者和研究人员都能使用VLM技术

已识别的风险与缓解措施：

偏见延续风险：鼓励在模型训练、微调及其他应用场景中实施持续监控（采用评估指标、人工审核）并探索去偏见技术
有害内容生成风险：内容安全机制与指南至关重要。建议开发者保持谨慎，根据具体产品政策和应用场景实施适当的内容安全防护措施
恶意用途滥用风险：技术限制与开发者及终端用户教育有助于缓解大语言模型的恶意应用。我们提供了用户举报滥用的教育资源与报告机制：详见负责任生成式AI工具包。Gemma模型的禁止用途概述于Gemma禁止使用政策
隐私侵犯风险：模型训练数据经过过滤以去除特定个人信息和敏感数据。鼓励开发者采用隐私保护技术遵守隐私法规

局限性

基础 Gemma 2 模型的大多数局限性仍然存在：
- 视觉语言模型更擅长处理可通过清晰提示和指令框架化的任务。开放式或高度复杂的任务可能具有挑战性。
- 自然语言本身具有复杂性。视觉语言模型可能难以把握细微差别、讽刺或比喻性语言。
- 视觉语言模型根据其训练数据集学习到的信息生成响应，但它们并非知识库。可能生成不正确或过时的事实陈述。
- 视觉语言模型依赖语言和图像中的统计模式。在某些情况下可能缺乏运用常识推理的能力。
PaliGemma 2 的设计初衷是作为通用预训练模型，用于微调至 specialized 任务。因此，其"开箱即用"或"零样本"性能可能落后于专为通用目的设计的模型。
PaliGemma 2 不是多轮对话机器人。其设计适用于单轮图像和文本输入。