此 Model2Vec 模型是使用 Tokenlearn 进行预训练的。它是 baai/bge-base-en-v1.5 句子转换器的蒸馏版本。它采用静态嵌入技术,能够在 GPU 和 CPU 上以快几个数量级的速度计算文本嵌入。该模型专为计算资源有限或对实时性能有严格要求的应用场景而设计。
使用 pip 安装 model2vec:
pip install model2vec使用 from_pretrained 方法加载此模型:
from model2vec import StaticModel
# Load a pretrained Model2Vec model
model = StaticModel.from_pretrained("minishlab/potion-base-8M")
# Compute text embeddings
embeddings = model.encode(["Example sentence"])Model2vec 会创建一个小型静态模型,该模型在 MTEB 的所有任务上,性能均大幅优于其他静态嵌入模型。此模型使用 Tokenlearn 进行预训练。其创建步骤如下:
该模型的结果可在 Model2Vec 结果页面 中查看。
Model2Vec 由 Minish Lab 团队开发,团队成员包括 Stephan Tulkens 和 Thomas van Dongen。
如果您在工作中使用此模型,请引用 Model2Vec 代码库。
@software{minishlab2024model2vec,
authors = {Stephan Tulkens, Thomas van Dongen},
title = {Model2Vec: Turn any Sentence Transformer into a Small Fast Model},
year = {2024},
url = {https://github.com/MinishLab/model2vec},
}