基于 DINOv2 训练的视觉变换器（巨型规模模型）

本视觉变换器（ViT）模型采用 DINOv2 方法训练，由 Oquab 等人在论文《DINOv2: 无需监督学习鲁棒视觉特征》中提出，并首次发布于该代码库。

免责声明：DINOv2 发布团队未为此模型编写模型卡片，本卡片由 Hugging Face 团队撰写。

模型描述

视觉变换器（ViT）是一种基于自监督方式在大规模图像集上预训练的变换器编码器模型（类 BERT 架构）。

图像以固定尺寸图像块的序列形式输入模型，并通过线性嵌入进行表示。在序列开头会添加 [CLS] 标记用于分类任务，在输入变换器编码器层之前还会添加绝对位置嵌入。

需注意，此模型不包含任何微调头部。

通过预训练，模型学习到图像的内在表征，可提取适用于下游任务的特征：例如若拥有带标注图像数据集，可在预训练编码器顶部添加线性层来训练标准分类器。通常会在 [CLS] 标记顶部放置线性层，因为该标记的最后隐藏状态可视为整张图像的表征。

适用范围与限制

该原始模型可用于特征提取。请查阅模型中心寻找相关任务的微调版本。

使用方法

具体使用方式如下：

from transformers import AutoImageProcessor, AutoModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = AutoImageProcessor.from_pretrained('facebook/dinov2-giant')
model = AutoModel.from_pretrained('facebook/dinov2-giant')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

BibTeX 条目与引用信息

misc{oquab2023dinov2,
      title={DINOv2: Learning Robust Visual Features without Supervision}, 
      author={Maxime Oquab and Timothée Darcet and Théo Moutakanni and Huy Vo and Marc Szafraniec and Vasil Khalidov and Pierre Fernandez and Daniel Haziza and Francisco Massa and Alaaeldin El-Nouby and Mahmoud Assran and Nicolas Ballas and Wojciech Galuba and Russell Howes and Po-Yao Huang and Shang-Wen Li and Ishan Misra and Michael Rabbat and Vasu Sharma and Gabriel Synnaeve and Hu Xu and Hervé Jegou and Julien Mairal and Patrick Labatut and Armand Joulin and Piotr Bojanowski},
      year={2023},
      eprint={2304.07193},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}