Winoground 数据集卡片

数据集描述

Winoground 是一个全新的任务与数据集，旨在评估视觉语言模型进行视觉-语言组合推理的能力。给定两张图像和两个标题，任务目标是将它们正确匹配——但关键在于，两个标题包含完全相同的词语/语素集合，只是顺序不同。该数据集由专业标注人员精心手工构建，并标注了丰富的细粒度标签，以辅助分析模型性能。在我们的配套论文中，我们对多种最先进的视觉语言模型进行了测试，惊讶地发现它们的表现均未显著优于随机水平。显然，这些模型在视觉-语言组合推理方面的能力并不像我们所期望的那样出色。在论文中，我们进行了广泛的分析，以期为未来的研究提供见解，从而尝试弥补这些模型的不足。我们希望 Winoground 能够作为一个有用的评估集，推动该领域的技术发展和进一步进步。

我们感谢 Getty Images 提供的图像数据。

数据

标题和标签位于 data/examples.jsonl，图像位于 data/images.zip。您可以按以下方式加载数据：

from datasets import load_dataset
examples = load_dataset('facebook/winoground', use_auth_token=<YOUR USER ACCESS TOKEN>)

你可以按照以下步骤获取 <YOUR USER ACCESS TOKEN>：

登录你的 Hugging Face 账户
点击你的个人资料图片
点击“设置”
点击“访问令牌”
生成访问令牌

模型预测与统计数据

我们论文中的图像标题模型分数保存在 statistics/model_scores 中。要计算我们论文中的许多表格和图表，请运行以下命令：

git clone https://huggingface.co/datasets/facebook/winoground
cd winoground
pip install -r statistics/requirements.txt
python statistics/compute_statistics.py

用于Winoground评估的FLAVA Colab笔记本代码

https://colab.research.google.com/drive/1c3l4r4cEA5oXfq9uXhrJibddwRkcBxzP?usp=sharing

用于Winoground评估的CLIP Colab笔记本代码

https://colab.research.google.com/drive/15wwOSte2CjTazdnCWYUm2VPlFbk2NGc0?usp=sharing

论文常见问题解答

为什么随机模型的组得分等于16.67%？

点击查看证明！

直观上，我们可能会认为可以将图像和文本得分的概率相乘得到1/16 = 6.25%。但是，这些得分并非条件独立的。我们可以通过组合数学找到正确的概率：

为了便于表示，令：

a = s(c_0, i_0)
b = s(c_1, i_0)
c = s(c_1, i_1)
d = s(c_0, i_1)

组得分的定义是：如果a > b、a > d、c > b且c > d，则为1，否则为0。

就像对GPT-3说的那样，让我们逐步思考：

a、c、b、d有4! = 24种不同的排序方式。
只有4种排序满足a > b、a > d、c > b且c > d：

a, c, b, d
a, c, d, b
c, a, b, d
c, a, d, b

由于a、b、c、d是从相同的随机分布中采样的，因此任何排序的可能性都相同。
我们可以得出结论：组得分为1的概率是4/24 = 0.166...

引用信息

https://arxiv.org/abs/2204.03162

Tristan Thrush和Candace Ross贡献相同。

@inproceedings{thrush_and_ross2022winoground,
  author = {Tristan Thrush and Ryan Jiang and Max Bartolo and Amanpreet Singh and Adina Williams and Douwe Kiela and Candace Ross},
  title = {Winoground: Probing vision and language models for visio-linguistic compositionality},
  booktitle = {CVPR},
  year = 2022,
}