Winoground 是一个全新的任务与数据集,旨在评估视觉语言模型进行视觉-语言组合推理的能力。给定两张图像和两个标题,任务目标是将它们正确匹配——但关键在于,两个标题包含完全相同的词语/语素集合,只是顺序不同。该数据集由专业标注人员精心手工构建,并标注了丰富的细粒度标签,以辅助分析模型性能。在我们的配套论文中,我们对多种最先进的视觉语言模型进行了测试,惊讶地发现它们的表现均未显著优于随机水平。显然,这些模型在视觉-语言组合推理方面的能力并不像我们所期望的那样出色。在论文中,我们进行了广泛的分析,以期为未来的研究提供见解,从而尝试弥补这些模型的不足。我们希望 Winoground 能够作为一个有用的评估集,推动该领域的技术发展和进一步进步。
我们感谢 Getty Images 提供的图像数据。
标题和标签位于 data/examples.jsonl,图像位于 data/images.zip。您可以按以下方式加载数据:
from datasets import load_dataset
examples = load_dataset('facebook/winoground', use_auth_token=<YOUR USER ACCESS TOKEN>)你可以按照以下步骤获取 <YOUR USER ACCESS TOKEN>:
我们论文中的图像标题模型分数保存在 statistics/model_scores 中。要计算我们论文中的许多表格和图表,请运行以下命令:
git clone https://huggingface.co/datasets/facebook/winoground
cd winoground
pip install -r statistics/requirements.txt
python statistics/compute_statistics.pyhttps://colab.research.google.com/drive/1c3l4r4cEA5oXfq9uXhrJibddwRkcBxzP?usp=sharing
https://colab.research.google.com/drive/15wwOSte2CjTazdnCWYUm2VPlFbk2NGc0?usp=sharing
直观上,我们可能会认为可以将图像和文本得分的概率相乘得到1/16 = 6.25%。但是,这些得分并非条件独立的。我们可以通过组合数学找到正确的概率:
为了便于表示,令:
组得分的定义是:如果a > b、a > d、c > b且c > d,则为1,否则为0。
就像对GPT-3说的那样,让我们逐步思考:
https://arxiv.org/abs/2204.03162
Tristan Thrush和Candace Ross贡献相同。
@inproceedings{thrush_and_ross2022winoground,
author = {Tristan Thrush and Ryan Jiang and Max Bartolo and Amanpreet Singh and Adina Williams and Douwe Kiela and Candace Ross},
title = {Winoground: Probing vision and language models for visio-linguistic compositionality},
booktitle = {CVPR},
year = 2022,
}