potion-base-8M 模型卡片

此 Model2Vec 模型是使用 Tokenlearn 进行预训练的。它是 baai/bge-base-en-v1.5 句子转换器的蒸馏版本。它采用静态嵌入技术，能够在 GPU 和 CPU 上以快几个数量级的速度计算文本嵌入。该模型专为计算资源有限或对实时性能有严格要求的应用场景而设计。

安装

使用 pip 安装 model2vec：

pip install model2vec

使用方法

使用 from_pretrained 方法加载此模型：

from model2vec import StaticModel

# Load a pretrained Model2Vec model
model = StaticModel.from_pretrained("minishlab/potion-base-8M")

# Compute text embeddings
embeddings = model.encode(["Example sentence"])

工作原理

Model2vec 会创建一个小型静态模型，该模型在 MTEB 的所有任务上，性能均大幅优于其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。其创建步骤如下：

蒸馏：首先，使用 Model2Vec 从句子转换器模型中蒸馏出一个模型。
训练数据创建：利用句子转换器模型对大型语料库生成平均输出嵌入，从而创建训练数据。
训练：使用 Tokenlearn 在训练数据上对蒸馏后的模型进行训练。
训练后重新正则化：训练完成后，通过基于词频对标记进行加权、应用 PCA，最后应用 SIF 加权，对模型进行重新正则化。

该模型的结果可在 Model2Vec 结果页面中查看。

其他资源

库作者

Model2Vec 由 Minish Lab 团队开发，团队成员包括 Stephan Tulkens 和 Thomas van Dongen。

引用

如果您在工作中使用此模型，请引用 Model2Vec 代码库。

@software{minishlab2024model2vec,
  authors = {Stephan Tulkens, Thomas van Dongen},
  title = {Model2Vec: Turn any Sentence Transformer into a Small Fast Model},
  year = {2024},
  url = {https://github.com/MinishLab/model2vec},
}