tabpfn_2_6:可用于解决结构化表格数据的回归和分类任务，尤其适用于样本量≤50000、特征数≤2000的场景。该项目是基于Transformer的基础模型，采用上下文学习在正向传播中完成预测，在多个基准测试中取得SOTA结果。【此简介由AI生成】

模型概述

TabPFN-2.6 是一个基于 Transformer 的基础模型，它利用上下文学习通过一次前向传播来解决表格预测问题。推理代码可在 https://github.com/PriorLabs/tabPFN 获取。

快速开始

首先，安装推理包：

pip install tabpfn

拟合分类器并进行预测的过程如下：

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from tabpfn import TabPFNClassifier

# Load data
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

# Initialize a classifier
clf = TabPFNClassifier()
clf.fit(X_train, y_train)


# Predict probabilities
prediction_probabilities = clf.predict_proba(X_test)
# Predict labels
predictions = clf.predict(X_test)
print("Accuracy", accuracy_score(y_test, predictions))

如需更多示例（例如如何训练回归模型），请参阅 GitHub 仓库：https://github.com/PriorLabs/tabPFN！

开发者与机构

由 Prior Labs 开发。

预期用途

适用于结构化表格格式中样本量 ≤50,000 且特征数 ≤2000 的回归和分类任务。

非预期用途

不适用于非结构化数据（文本、图像）；文本特征请使用 API 版本。
未针对 >50,000 样本或 >2000 特征的场景进行测试。

模型架构

采用具有类 TabPFNv2 交替注意力机制的 Transformer，包含 24 层。

训练数据与先验知识

TabPFN-2.6 完全基于合成表格任务进行训练。

性能基准

在专有基准测试集 TabArena 和 RealCause（因果版本）上进行了评估，在每个测试集中均取得了新的 SOTA 结果。

伦理考量

由于完全基于合成数据集训练，TabPFN-2.6 不存在预训练阶段的数据集泄露问题。然而，与其他任何表格预测方法一样，在应用于高风险用例时，用户应确保标记数据不存在偏差。

局限性

当应用于 >50,000 数据点和/或 2000 特征时，性能可能会下降。

许可信息

模型权重依据 tabpfn-2.6-license-v1.0 发布。

此许可旨在对研究和有限的内部评估保持宽松。它明确允许进行测试、评估和内部基准测试，因此组织可以下载模型并在其自己的数据集上进行初步评估。关键限制在于，模型及其衍生品和输出不得用于任何商业或生产目的。这包括但不限于创收产品、用于采购的竞争性基准测试、客户交付成果，或使用模型结果进行内部商业决策。对于所有生产用例，我们提供商业企业许可。这包括对我们专有高速推理引擎的访问、专门支持、集成工具以及其他内部模型。商业许可咨询请联系 sales@priorlabs.ai。

版本

v1.0：初始版本发布。

引用

@misc{TabPFN-2.5,\
      title={TabPFN-2.5},\
      author={Léo Grinsztajn and Klemens Flöge and Oscar Key and Felix Birkel and Brendan Roof and Phil Jund and Benjamin Jäger and Adrian Hayler and Dominik Safaric and Simone Alessi, Felix Jablonski and Mihir Manium and Rosen Yu and Anurag Garg and Jake Robertson and Shi Bin (Liam) Hoo and Vladyslav Moroshan and Magnus Bühler and Lennart Purucker and Clara Cornu and Lilly Charlotte Wehrhahn and Alessandro Bonetto and Sauraj Gambhir and Noah Hollmann and Frank Hutter},\
      year={2025}\
}

from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split from tabpfn import TabPFNClassifier # Load data X, y = load_breast_cancer(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42) # Initialize a classifier clf = TabPFNClassifier() clf.fit(X_train, y_train) # Predict probabilities prediction_probabilities = clf.predict_proba(X_test) # Predict labels predictions = clf.predict(X_test) print("Accuracy", accuracy_score(y_test, predictions))

@misc{TabPFN-2.5,\ title={TabPFN-2.5},\ author={Léo Grinsztajn and Klemens Flöge and Oscar Key and Felix Birkel and Brendan Roof and Phil Jund and Benjamin Jäger and Adrian Hayler and Dominik Safaric and Simone Alessi, Felix Jablonski and Mihir Manium and Rosen Yu and Anurag Garg and Jake Robertson and Shi Bin (Liam) Hoo and Vladyslav Moroshan and Magnus Bühler and Lennart Purucker and Clara Cornu and Lilly Charlotte Wehrhahn and Alessandro Bonetto and Sauraj Gambhir and Noah Hollmann and Frank Hutter},\ year={2025}\ }