HuggingFace镜像/winoground
数据集数据集查看器文件和版本
下载使用量0

Winoground 数据集卡片

数据集描述

Winoground 是一个全新的任务与数据集,旨在评估视觉语言模型进行视觉-语言组合推理的能力。给定两张图像和两个标题,任务目标是将它们正确匹配——但关键在于,两个标题包含完全相同的词语/语素集合,只是顺序不同。该数据集由专业标注人员精心手工构建,并标注了丰富的细粒度标签,以辅助分析模型性能。在我们的配套论文中,我们对多种最先进的视觉语言模型进行了测试,惊讶地发现它们的表现均未显著优于随机水平。显然,这些模型在视觉-语言组合推理方面的能力并不像我们所期望的那样出色。在论文中,我们进行了广泛的分析,以期为未来的研究提供见解,从而尝试弥补这些模型的不足。我们希望 Winoground 能够作为一个有用的评估集,推动该领域的技术发展和进一步进步。

我们感谢 Getty Images 提供的图像数据。

数据

标题和标签位于 data/examples.jsonl,图像位于 data/images.zip。您可以按以下方式加载数据:

from datasets import load_dataset
examples = load_dataset('facebook/winoground', use_auth_token=<YOUR USER ACCESS TOKEN>)

你可以按照以下步骤获取 <YOUR USER ACCESS TOKEN>:

  1. 登录你的 Hugging Face 账户
  2. 点击你的个人资料图片
  3. 点击“设置”
  4. 点击“访问令牌”
  5. 生成访问令牌

模型预测与统计数据

我们论文中的图像标题模型分数保存在 statistics/model_scores 中。要计算我们论文中的许多表格和图表,请运行以下命令:

git clone https://huggingface.co/datasets/facebook/winoground
cd winoground
pip install -r statistics/requirements.txt
python statistics/compute_statistics.py

用于Winoground评估的FLAVA Colab笔记本代码

https://colab.research.google.com/drive/1c3l4r4cEA5oXfq9uXhrJibddwRkcBxzP?usp=sharing

用于Winoground评估的CLIP Colab笔记本代码

https://colab.research.google.com/drive/15wwOSte2CjTazdnCWYUm2VPlFbk2NGc0?usp=sharing

论文常见问题解答

为什么随机模型的组得分等于16.67%?

点击查看证明!

直观上,我们可能会认为可以将图像和文本得分的概率相乘得到1/16 = 6.25%。但是,这些得分并非条件独立的。我们可以通过组合数学找到正确的概率:

为了便于表示,令:

  • a = s(c_0, i_0)
  • b = s(c_1, i_0)
  • c = s(c_1, i_1)
  • d = s(c_0, i_1)

组得分的定义是:如果a > b、a > d、c > b且c > d,则为1,否则为0。

就像对GPT-3说的那样,让我们逐步思考:

  1. a、c、b、d有4! = 24种不同的排序方式。
  2. 只有4种排序满足a > b、a > d、c > b且c > d:
  • a, c, b, d
  • a, c, d, b
  • c, a, b, d
  • c, a, d, b
  1. 由于a、b、c、d是从相同的随机分布中采样的,因此任何排序的可能性都相同。
  2. 我们可以得出结论:组得分为1的概率是4/24 = 0.166...

引用信息

https://arxiv.org/abs/2204.03162

Tristan Thrush和Candace Ross贡献相同。

@inproceedings{thrush_and_ross2022winoground,
  author = {Tristan Thrush and Ryan Jiang and Max Bartolo and Amanpreet Singh and Adina Williams and Douwe Kiela and Candace Ross},
  title = {Winoground: Probing vision and language models for visio-linguistic compositionality},
  booktitle = {CVPR},
  year = 2022,
}