HuggingFace镜像/phikon-v2
模型介绍文件和版本分析
下载使用量0

Phikon-v2 模型卡片

Phikon-v2 是一个 Vision Transformer Large 模型,它采用 Dinov2 自监督方法在 PANCAN-XL 数据集上进行预训练。PANCAN-XL 数据集包含 4.5 亿张 20 倍放大倍率的组织学图像,这些图像从 6 万张 whole slide images(WSI,全切片图像)中采样获得。

PANCAN-XL 仅整合了公开可用的数据集:用于恶性组织的 CPTAC(6,193 张 WSI)和 TCGA(29,502 张 WSI),以及用于正常组织的 GTEx(13,302 张 WSI)。

Phikon-v2 在我们之前的基础模型 Phikon 上进行了改进。Phikon 是我们先前通过 iBOT 在来自 TCGA(6k 张 WSI)的 4000 万张组织学图像上预训练的基础模型。Phikon-v2 在多种专为生物标志物发现设计的弱监督任务上表现更优。 为避免与 PANCAN-XL 预训练数据集存在任何数据污染,Phikon-v2 在外部队列上进行评估,并与一系列详尽的表征学习模型和基础模型进行了基准测试。

模型描述

  • 开发机构: Owkin, Inc
  • 模型类型: 预训练视觉骨干网络(基于 DINOv2 的 ViT-L/16)
  • 预训练数据集: PANCAN-XL,来源于公开的组织学数据集(TCGA、CPTAC、GTEx、TCIA 等)。
  • 论文: Arxiv
  • 许可证: Owkin 非商业许可证

如何使用(特征提取)

以下代码片段可让您使用 Phikon-v2(CLS token)从组织学图像中提取特征。 这些特征可用于下游应用,例如 ROI 分类(通过线性或 knn 探测)、切片分类(通过多实例学习)、分割(例如通过 ViT-Adapter)等。

from PIL import Image
import torch
from transformers import AutoImageProcessor, AutoModel


# Load an image
image = Image.open(
    requests.get(
        "https://github.com/owkin/HistoSSLscaling/blob/main/assets/example.tif?raw=true",
        stream=True
    ).raw
)

# Load phikon-v2
processor = AutoImageProcessor.from_pretrained("owkin/phikon-v2")
model = AutoModel.from_pretrained("owkin/phikon-v2")
model.eval()

# Process the image
inputs = processor(image, return_tensors="pt")

# Get the features
with torch.inference_mode():
    outputs = model(**inputs)
    features = outputs.last_hidden_state[:, 0, :]  # (1, 1024) shape

assert features.shape == (1, 1024)

直接使用(基于预提取和冻结的特征)

Phikon-v2 可在不同的下游应用中直接使用,无需进行微调,例如可在其基础上结合多实例学习算法(如 ABMIL)进行切片分类。

下游使用(微调)

您可以在瓦片级下游任务上对模型进行微调。 此 Colab 笔记本 允许您通过 huggingface API 使用 LoRa 对 Phikon 和 Phikon-v2 进行微调。

训练详情

  • 训练数据:PANCAN-XL,一个预训练数据集,包含 456,060,584 张 [224×224] 分辨率为 20 倍的组织学图像,采样自 60k 张 H&E 全切片图像(WSI)。
  • 训练模式:采用 PyTorch-FSDP 混合精度的 fp16。
  • 训练目标:基于 DINOv2 SSL 方法,包含以下损失函数:
    • 多裁剪 DINO 自蒸馏损失
    • iBOT 掩膜图像建模损失
    • 针对 [CLS] 标记的 KoLeo 正则化
  • 训练时长:100,000 次迭代,批大小为 4,096
  • 模型架构:ViT-Large(0.3B 参数):补丁大小 16,嵌入维度 1024,16 个注意力头,MLP 前馈网络
  • 所用硬件:32x4 Nvidia V100 32GB
  • 训练小时数:约 4,300 GPU 小时(总计 33 小时)
  • 平台:法国超级计算集群 Jean-Zay

软件依赖

Python 包

  • torch>==2.0.0: https://pytorch.org
  • torchvision>=0.15.0: https://pytorch.org/vision/stable/index.html
  • xformers>=0.0.18: https://github.com/facebookresearch/xformers

代码仓库

  • DINOv2(自监督学习):https://github.com/facebookresearch/dinov2

联系方式

如有任何其他问题或意见,请联系 Alexandre Filiot(alexandre.filiot@owkin.com)。

引用方式

@misc{filiot2024phikonv2largepublicfeature,
      title={Phikon-v2, A large and public feature extractor for biomarker prediction}, 
      author={Alexandre Filiot and Paul Jacob and Alice Mac Kain and Charlie Saillard},
      year={2024},
      eprint={2409.09173},
      archivePrefix={arXiv},
      primaryClass={eess.IV},
      url={https://arxiv.org/abs/2409.09173}, 
}

致谢

感谢 DINOv2 的作者们所做出的杰出贡献 [1]。

计算资源

本研究获得了 IDRIS 高性能计算资源的支持,资源分配编号为 2023-A0141012519,由 GENCI 提供。

数据集

本文发表的结果部分基于 TCGA 研究网络生成的数据:https://www.cancer.gov/tcga。 基因型-组织表达(GTEx)项目得到了美国国立卫生研究院院长共同基金以及 NCI、NHGRI、NHLBI、NIDA、NIMH 和 NINDS 的支持。本手稿中描述的分析所用数据于 2023 年 7 月 1 日从 GTEx 数据门户获取。

第三方许可

视觉Transformer架构衍生自 facebookresearch/dino(Apache License 2.0)、huggingface/pytorch-image-models(Apache License 2.0)。 本代码基于 DINOv2 仓库构建(Apache License 2.0)。

下表提供了用于预训练 Phikon-v2 的每个数据集相关的许可信息。

数据集名称许可类型数据集主页
TCGA开放获取https://portal.gdc.cancer.gov/
TCIA [2]TCIA 限制许可https://www.cancerimagingarchive.net/
CPTAC [3-14]CC-BY 3.0 许可https://proteomics.cancer.gov/programs/cptac
GTEX开放获取https://gtexportal.org/home/downloads/adult-gtex/overview
Biobank-CMB [15 - 19]CC BY 4.0 许可https://moonshotbiobank.cancer.gov/
UPENN-GBM [20]CC BY 4.0 许可https://www.cancerimagingarchive.net/collection/upenn-gbm/
Post-NAT-BRCA [21]CC BY 3.0 许可https://www.cancerimagingarchive.net/collection/post-nat-brca/
Breast Metastases (MSKCC) [22]CC BY 3.0 许可https://www.cancerimagingarchive.net/collection/sln-breast/
HER2 Tumor ROIs (v3) [23]CC BY 4.0 许可https://www.cancerimagingarchive.net/collection/her2-tumor-rois/
TUH DPath Breast免费无限制https://isip.piconepress.com/projects/nedc/html/tuh_dpath/
Hungarian Colorectal Screening [24]CC BY 4.0 许可https://www.cancerimagingarchive.net/collection/hungarian-colorectal-screening/
PennyCuick [25]CC BY 4.0 许可https://idr.openmicroscopy.org/webclient/?show=project-1251
NLST-pathology-1225 [26]CC BY 4.0 许可https://www.cancerimagingarchive.net/collection/nlst/
Ovarian Bevacizumab Response [27]CC BY 4.0 许可https://www.cancerimagingarchive.net/collection/ovarian-bevacizumab-response/
PTRC-HGSOC [28]CC BY 4.0 许可https://www.cancerimagingarchive.net/collection/ptrc-hgsoc/
Hodis [29]CC BY 4.0 许可https://idr.openmicroscopy.org/webclient/?show=project-2351

参考文献

  1. Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., Assran, M., Ballas, N., Galuba, W., Howes, R., Huang, P.-Y., Li, S.-W., Misra, I., Rabbat, M., Sharma, V., Synnaeve, G., Xu, H., Jegou, H., Mairal, J., Labatut, P., Joulin, A., & Bojanowski, P. (2024). Dinov2: Learning robust visual features without supervision. arXiv.

  2. Clark, K., Vendt, B., Smith, K., Freymann, J., Kirby, J., Koppel, P., Moore, S., Phillips, S., Maffitt, D., Pringle, M., Tarbox, L., & Prior, F. (2013). The Cancer Imaging Archive (TCIA): Maintaining and operating a public information repository. Journal of Digital Imaging, 26(6), 1045–1057. Springer Science and Business Media LLC. https://doi.org/10.1007/s10278-013-9622-7

  3. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2019). 临床蛋白质组肿瘤分析联盟急性髓系白血病数据集(CPTAC-AML)(版本4)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.B6FOE619

  4. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟多形性胶质母细胞瘤数据集(CPTAC-GBM)(版本15)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.3RJE41Q1

  5. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2020). 临床蛋白质组肿瘤分析联盟乳腺浸润性癌数据集(CPTAC-BRCA)(版本1)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.CAEM-YS80

  6. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2020). 临床蛋白质组肿瘤分析联盟结肠腺癌数据集(CPTAC-COAD)(版本1)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.YZWQ-ZZ63

  7. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟头颈部鳞状细胞癌数据集(CPTAC-HNSCC)(版本16)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.UW45NH81

  8. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟肾透明细胞癌数据集(CPTAC-CCRCC)(版本13)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.OBLAMN27

  9. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟肺鳞状细胞癌数据集(CPTAC-LSCC)(版本15)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.6EMUB5L2

  10. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2019). 临床蛋白质组肿瘤分析联盟肉瘤数据集(CPTAC-SAR)(版本10)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.9BT23R95

  11. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2020). 临床蛋白质组肿瘤分析联盟卵巢浆液性囊腺癌数据集(CPTAC-OV)(版本3)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.ZS4A-JD58

  12. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟胰腺导管腺癌数据集(CPTAC-PDA)(版本14)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.SC20FO18

  13. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟皮肤黑色素瘤数据集(CPTAC-CM)(版本11)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.ODU24GZE

  14. 美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2019). 临床蛋白质组肿瘤分析联盟子宫体子宫内膜癌数据集(CPTAC-UCEC)(版本12)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.3R3JUISW

  15. Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Colorectal Cancer Collection (CMB-CRC) (Version 5) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/DJG7-GZ87

  16. Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Melanoma Collection (CMB-MEL) (Version 5) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/GWSP-WH72

  17. Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Gastroesophageal Cancer Collection (CMB-GEC) (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/E7KH-R486

  18. Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Lung Cancer Collection (CMB-LCA) (Version 5) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/3CX3-S132

  19. Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Multiple Myeloma Collection (CMB-MML) (Version 4) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/SZKB-SW39

  20. Bakas, S., Sako, C., Akbari, H., Bilello, M., Sotiras, A., Shukla, G., Rudie, J. D., Flores Santamaria, N., Fathi Kazerooni, A., Pati, S., Rathore, S., Mamourian, E., Ha, S. M., Parker, W., Doshi, J., Baid, U., Bergman, M., Binder, Z. A., Verma, R., … Davatzikos, C. (2021). Multi-parametric magnetic resonance imaging (mpMRI) scans for de novo Glioblastoma (GBM) patients from the University of Pennsylvania Health System (UPENN-GBM) (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.709X-DN49

  21. Martel, A. L., Nofech-Mozes, S., Salama, S., Akbar, S., & Peikari, M. (2019). Assessment of residual breast cancer cellularity after neoadjuvant chemotherapy using digital pathology [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.4YIBTJNO

  22. Campanella, G., Hanna, M. G., Brogi, E., & Fuchs, T. J. (2019). Breast metastases to axillary lymph nodes [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.3XBN2JCC

  23. Farahmand, S., Fernandez, A. I., Ahmed, F. S., Rimm, D. L., Chuang, J. H., Reisenbichler, E., & Zarringhalam, K. (2022). HER2 and trastuzumab treatment response H&E slides with tumor ROI annotations (Version 3) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/E65C-AM96

  24. Pataki, B. A., Olar, A., Ribli, D., Pesti, A., Kontsek, E., Gyongyosi, B., Bilecz, A., Kovács, T., Kovács, K. A., Kiss, Z., Szócska, M., Pollner, P., & Csabai, I. (2021). Digital pathological slides from Hungarian (Europe) colorectal cancer screening (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.9CJF-0127

  25. Pennycuick, A., Teixeira, V. H., AbdulJabbar, K., Raza, S. E. A., Lund, T., Akarca, A. U., Rosenthal, R., Kalinke, L., Chandrasekharan, D. P., Pipinikas, C. P., Lee-Six, H., Hynds, R. E., Gowers, K. H. C., Henry, J. Y., Millar, F. R., Hagos, Y. B., Denais, C., Falzon, M., Moore, D. A., Antoniou, S., Durrenberger, P. F., Furness, A. J., Carroll, B., Marceaux, C., Asselin-Labat, M. L., Larson, W., Betts, C., Coussens, L. M., Thakrar, R. M., George, J., Swanton, C., Thirlwell, C., Campbell, P. J., Marafioti, T., Yuan, Y., Quezada, S. A., McGranahan, N., & Janes, S. M. (2020). Immune surveillance in clinical regression of preinvasive squamous cell lung cancer. Cancer Discovery, 10(10), 1489-1499. https://doi.org/10.1158/2159-8290.CD-19-1366

  26. National Lung Screening Trial Research Team. (2013). Data from the National Lung Screening Trial (NLST) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.HMQ8-J677

  27. Wang, C.-W., Chang, C.-C., Lo, S.-C., Lin, Y.-J., Liou, Y.-A., Hsu, P.-C., Lee, Y.-C., & Chao, T.-K. (2021). A dataset of histopathological whole slide images for classification of treatment effectiveness to ovarian cancer (Ovarian Bevacizumab Response) (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.985G-EY35

  28. Chowdhury, S., Kennedy, J. J., Ivey, R. G., Murillo, O., Hosseini, N., Song, X., Petralia, F., Calinawan, A., Voytovich, U. J., Savage, S. R., Berry, A., Reva, B., Ozbek, U., Krek, A., Ma, W., da Veiga Leprevost, F., Ji, J., Yoo, S., Lin, C., … Paulovich, A. G. (2023). Proteogenomic analysis of chemo-refractory high grade serous ovarian cancer (PTRC-HGSOC) (Version 1) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/6RDA-P940

  29. Hodis, E., Torlai Triglia, E., Kwon, J. Y. H., Biancalani, T., Zakka, L. R., Parkar, S., Hütter, J. C., Buffoni, L., Delorey, T. M., Phillips, D., Dionne, D., Nguyen, L. T., Schapiro, D., Maliga, Z., Jacobson, C. A., Hendel, A., Rozenblatt-Rosen, O., Mihm, M. C. Jr., Garraway, L. A., & Regev, A. (2022). Stepwise-edited, human melanoma models reveal mutations' effect on tumor and microenvironment. Science, 376(6592), eabi8175. https://doi.org/10.1126/science.abi8175