Phikon-v2 是一个 Vision Transformer Large 模型,它采用 Dinov2 自监督方法在 PANCAN-XL 数据集上进行预训练。PANCAN-XL 数据集包含 4.5 亿张 20 倍放大倍率的组织学图像,这些图像从 6 万张 whole slide images(WSI,全切片图像)中采样获得。
PANCAN-XL 仅整合了公开可用的数据集:用于恶性组织的 CPTAC(6,193 张 WSI)和 TCGA(29,502 张 WSI),以及用于正常组织的 GTEx(13,302 张 WSI)。
Phikon-v2 在我们之前的基础模型 Phikon 上进行了改进。Phikon 是我们先前通过 iBOT 在来自 TCGA(6k 张 WSI)的 4000 万张组织学图像上预训练的基础模型。Phikon-v2 在多种专为生物标志物发现设计的弱监督任务上表现更优。 为避免与 PANCAN-XL 预训练数据集存在任何数据污染,Phikon-v2 在外部队列上进行评估,并与一系列详尽的表征学习模型和基础模型进行了基准测试。
以下代码片段可让您使用 Phikon-v2(CLS token)从组织学图像中提取特征。 这些特征可用于下游应用,例如 ROI 分类(通过线性或 knn 探测)、切片分类(通过多实例学习)、分割(例如通过 ViT-Adapter)等。
from PIL import Image
import torch
from transformers import AutoImageProcessor, AutoModel
# Load an image
image = Image.open(
requests.get(
"https://github.com/owkin/HistoSSLscaling/blob/main/assets/example.tif?raw=true",
stream=True
).raw
)
# Load phikon-v2
processor = AutoImageProcessor.from_pretrained("owkin/phikon-v2")
model = AutoModel.from_pretrained("owkin/phikon-v2")
model.eval()
# Process the image
inputs = processor(image, return_tensors="pt")
# Get the features
with torch.inference_mode():
outputs = model(**inputs)
features = outputs.last_hidden_state[:, 0, :] # (1, 1024) shape
assert features.shape == (1, 1024)Phikon-v2 可在不同的下游应用中直接使用,无需进行微调,例如可在其基础上结合多实例学习算法(如 ABMIL)进行切片分类。
您可以在瓦片级下游任务上对模型进行微调。 此 Colab 笔记本 允许您通过 huggingface API 使用 LoRa 对 Phikon 和 Phikon-v2 进行微调。
Python 包
代码仓库
如有任何其他问题或意见,请联系 Alexandre Filiot(alexandre.filiot@owkin.com)。
@misc{filiot2024phikonv2largepublicfeature,
title={Phikon-v2, A large and public feature extractor for biomarker prediction},
author={Alexandre Filiot and Paul Jacob and Alice Mac Kain and Charlie Saillard},
year={2024},
eprint={2409.09173},
archivePrefix={arXiv},
primaryClass={eess.IV},
url={https://arxiv.org/abs/2409.09173},
}感谢 DINOv2 的作者们所做出的杰出贡献 [1]。
本研究获得了 IDRIS 高性能计算资源的支持,资源分配编号为 2023-A0141012519,由 GENCI 提供。
本文发表的结果部分基于 TCGA 研究网络生成的数据:https://www.cancer.gov/tcga。 基因型-组织表达(GTEx)项目得到了美国国立卫生研究院院长共同基金以及 NCI、NHGRI、NHLBI、NIDA、NIMH 和 NINDS 的支持。本手稿中描述的分析所用数据于 2023 年 7 月 1 日从 GTEx 数据门户获取。
视觉Transformer架构衍生自 facebookresearch/dino(Apache License 2.0)、huggingface/pytorch-image-models(Apache License 2.0)。 本代码基于 DINOv2 仓库构建(Apache License 2.0)。
下表提供了用于预训练 Phikon-v2 的每个数据集相关的许可信息。
Oquab, M., Darcet, T., Moutakanni, T., Vo, H., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., Assran, M., Ballas, N., Galuba, W., Howes, R., Huang, P.-Y., Li, S.-W., Misra, I., Rabbat, M., Sharma, V., Synnaeve, G., Xu, H., Jegou, H., Mairal, J., Labatut, P., Joulin, A., & Bojanowski, P. (2024). Dinov2: Learning robust visual features without supervision. arXiv.
Clark, K., Vendt, B., Smith, K., Freymann, J., Kirby, J., Koppel, P., Moore, S., Phillips, S., Maffitt, D., Pringle, M., Tarbox, L., & Prior, F. (2013). The Cancer Imaging Archive (TCIA): Maintaining and operating a public information repository. Journal of Digital Imaging, 26(6), 1045–1057. Springer Science and Business Media LLC. https://doi.org/10.1007/s10278-013-9622-7
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2019). 临床蛋白质组肿瘤分析联盟急性髓系白血病数据集(CPTAC-AML)(版本4)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.B6FOE619
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟多形性胶质母细胞瘤数据集(CPTAC-GBM)(版本15)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.3RJE41Q1
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2020). 临床蛋白质组肿瘤分析联盟乳腺浸润性癌数据集(CPTAC-BRCA)(版本1)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.CAEM-YS80
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2020). 临床蛋白质组肿瘤分析联盟结肠腺癌数据集(CPTAC-COAD)(版本1)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.YZWQ-ZZ63
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟头颈部鳞状细胞癌数据集(CPTAC-HNSCC)(版本16)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.UW45NH81
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟肾透明细胞癌数据集(CPTAC-CCRCC)(版本13)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.OBLAMN27
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟肺鳞状细胞癌数据集(CPTAC-LSCC)(版本15)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.6EMUB5L2
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2019). 临床蛋白质组肿瘤分析联盟肉瘤数据集(CPTAC-SAR)(版本10)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.9BT23R95
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2020). 临床蛋白质组肿瘤分析联盟卵巢浆液性囊腺癌数据集(CPTAC-OV)(版本3)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.ZS4A-JD58
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟胰腺导管腺癌数据集(CPTAC-PDA)(版本14)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.SC20FO18
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2018). 临床蛋白质组肿瘤分析联盟皮肤黑色素瘤数据集(CPTAC-CM)(版本11)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.ODU24GZE
美国国家癌症研究所临床蛋白质组肿瘤分析联盟(CPTAC). (2019). 临床蛋白质组肿瘤分析联盟子宫体子宫内膜癌数据集(CPTAC-UCEC)(版本12)[数据集]. The Cancer Imaging Archive. https://doi.org/10.7937/K9/TCIA.2018.3R3JUISW
Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Colorectal Cancer Collection (CMB-CRC) (Version 5) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/DJG7-GZ87
Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Melanoma Collection (CMB-MEL) (Version 5) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/GWSP-WH72
Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Gastroesophageal Cancer Collection (CMB-GEC) (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/E7KH-R486
Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Lung Cancer Collection (CMB-LCA) (Version 5) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/3CX3-S132
Cancer Moonshot Biobank. (2022). Cancer Moonshot Biobank – Multiple Myeloma Collection (CMB-MML) (Version 4) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/SZKB-SW39
Bakas, S., Sako, C., Akbari, H., Bilello, M., Sotiras, A., Shukla, G., Rudie, J. D., Flores Santamaria, N., Fathi Kazerooni, A., Pati, S., Rathore, S., Mamourian, E., Ha, S. M., Parker, W., Doshi, J., Baid, U., Bergman, M., Binder, Z. A., Verma, R., … Davatzikos, C. (2021). Multi-parametric magnetic resonance imaging (mpMRI) scans for de novo Glioblastoma (GBM) patients from the University of Pennsylvania Health System (UPENN-GBM) (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.709X-DN49
Martel, A. L., Nofech-Mozes, S., Salama, S., Akbar, S., & Peikari, M. (2019). Assessment of residual breast cancer cellularity after neoadjuvant chemotherapy using digital pathology [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.4YIBTJNO
Campanella, G., Hanna, M. G., Brogi, E., & Fuchs, T. J. (2019). Breast metastases to axillary lymph nodes [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.2019.3XBN2JCC
Farahmand, S., Fernandez, A. I., Ahmed, F. S., Rimm, D. L., Chuang, J. H., Reisenbichler, E., & Zarringhalam, K. (2022). HER2 and trastuzumab treatment response H&E slides with tumor ROI annotations (Version 3) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/E65C-AM96
Pataki, B. A., Olar, A., Ribli, D., Pesti, A., Kontsek, E., Gyongyosi, B., Bilecz, A., Kovács, T., Kovács, K. A., Kiss, Z., Szócska, M., Pollner, P., & Csabai, I. (2021). Digital pathological slides from Hungarian (Europe) colorectal cancer screening (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.9CJF-0127
Pennycuick, A., Teixeira, V. H., AbdulJabbar, K., Raza, S. E. A., Lund, T., Akarca, A. U., Rosenthal, R., Kalinke, L., Chandrasekharan, D. P., Pipinikas, C. P., Lee-Six, H., Hynds, R. E., Gowers, K. H. C., Henry, J. Y., Millar, F. R., Hagos, Y. B., Denais, C., Falzon, M., Moore, D. A., Antoniou, S., Durrenberger, P. F., Furness, A. J., Carroll, B., Marceaux, C., Asselin-Labat, M. L., Larson, W., Betts, C., Coussens, L. M., Thakrar, R. M., George, J., Swanton, C., Thirlwell, C., Campbell, P. J., Marafioti, T., Yuan, Y., Quezada, S. A., McGranahan, N., & Janes, S. M. (2020). Immune surveillance in clinical regression of preinvasive squamous cell lung cancer. Cancer Discovery, 10(10), 1489-1499. https://doi.org/10.1158/2159-8290.CD-19-1366
National Lung Screening Trial Research Team. (2013). Data from the National Lung Screening Trial (NLST) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.HMQ8-J677
Wang, C.-W., Chang, C.-C., Lo, S.-C., Lin, Y.-J., Liou, Y.-A., Hsu, P.-C., Lee, Y.-C., & Chao, T.-K. (2021). A dataset of histopathological whole slide images for classification of treatment effectiveness to ovarian cancer (Ovarian Bevacizumab Response) (Version 2) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/TCIA.985G-EY35
Chowdhury, S., Kennedy, J. J., Ivey, R. G., Murillo, O., Hosseini, N., Song, X., Petralia, F., Calinawan, A., Voytovich, U. J., Savage, S. R., Berry, A., Reva, B., Ozbek, U., Krek, A., Ma, W., da Veiga Leprevost, F., Ji, J., Yoo, S., Lin, C., … Paulovich, A. G. (2023). Proteogenomic analysis of chemo-refractory high grade serous ovarian cancer (PTRC-HGSOC) (Version 1) [Data set]. The Cancer Imaging Archive. https://doi.org/10.7937/6RDA-P940
Hodis, E., Torlai Triglia, E., Kwon, J. Y. H., Biancalani, T., Zakka, L. R., Parkar, S., Hütter, J. C., Buffoni, L., Delorey, T. M., Phillips, D., Dionne, D., Nguyen, L. T., Schapiro, D., Maliga, Z., Jacobson, C. A., Hendel, A., Rozenblatt-Rosen, O., Mihm, M. C. Jr., Garraway, L. A., & Regev, A. (2022). Stepwise-edited, human melanoma models reveal mutations' effect on tumor and microenvironment. Science, 376(6592), eabi8175. https://doi.org/10.1126/science.abi8175