HuggingFace镜像/jina-embedding-s-en-v1
模型介绍文件和版本分析
下载使用量0



Finetuner 标志:Finetuner 助您开展实验以优化搜索任务的嵌入效果。它将陪伴您完成神经搜索应用性能调优的最后一公里。

由 Jina AI 的 Finetuner 团队训练的文本嵌入模型。

预期用途与模型信息

jina-embedding-s-en-v1 是一款基于 Jina AI 的 Linnaeus-Clean 数据集训练的语言模型。 该数据集包含 3.8 亿个句子对,其中包括查询-文档对。 这些句子对来源于多个领域,并经过严格的清洗流程精心筛选。 Linnaeus-Clean 数据集源自 Linnaeus-Full 数据集,后者最初包含 16 亿个句子对。

该模型具有广泛的应用场景,包括信息检索、语义文本相似度计算、文本重排序等。

凭借仅 3500 万参数的紧凑规模, 该模型实现了闪电般的推理速度,同时仍能提供令人印象深刻的性能。 此外,我们还提供以下选项:

  • jina-embedding-1b-en-v1:12 亿参数,规模为 bert-base 的 10 倍(即将发布)。
  • jina-embedding-6b-en-v1:60 亿参数,规模为 bert-base 的 30 倍(即将发布)。

数据与参数

详情请查阅我们的 技术博客。

评估指标

我们将该模型与 sbert 的 all-minilm-l6-v2/all-mpnet-base-v2 以及 OpenAI 的 text-embeddings-ada-002 进行了对比:

名称参数数量维度
all-minilm-l6-v22300 万384
all-mpnet-base-v21.1 亿768
ada-embedding-002未知/OpenAI API1536
jina-embedding-t-en-v11400 万312
jina-embedding-s-en-v13500 万512
jina-embedding-b-en-v11.1 亿768
jina-embedding-l-en-v13.3 亿1024
名称STS12STS13STS14STS15STS16STS17TRECOVIDQuoraSciFact
all-minilm-l6-v20.7240.8060.7560.8540.790.8760.4730.8760.645
all-mpnet-base-v20.7260.8350.780.8570.80.9060.5130.8750.656
ada-embedding-0020.6980.8330.7610.8610.860.9030.6850.8760.726
jina-embedding-t-en-v10.7170.7730.7310.8290.7770.8600.4820.8400.522
jina-embedding-s-en-v10.7430.7860.7380.8370.800.8750.5230.8570.524
jina-embedding-b-en-v10.7510.8090.7610.8560.8120.8900.6060.8760.594
jina-embedding-l-en-v10.7450.8320.7810.8690.8370.9020.5730.8810.598

使用方法

与 Jina AI Finetuner 配合使用

!pip install finetuner
# coding = utf-8
import os
import torch
import torch_npu

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

import argparse
from openmind import pipeline, is_torch_npu_available

parser = argparse.ArgumentParser(description='manual to this script')
parser.add_argument("--model_name_or_path", type=str, default="./")
args = parser.parse_args()

device None
if is_torch_npu_available():
    device = "npu:0"
else:
    device = "cpu"
# load tokenizer

sentences_1 = ['how is the weather today']
sentences_2 = [ 'What is the current weather like today?']

model = SentenceTransformer(args.model_path)
model = model.to(device)
embeddings = model.encode(['how is the weather today', 'What is the current weather like today?'])

cosine_scores = cos_sim(embeddings[0], embeddings[1])
print(f"cosine_scores: {cosine_scores}")

微调

请考虑使用 Finetuner。

计划

  1. jina-embedding-s-en-v2 的开发工作目前正在进行中,主要有两个目标:提升性能和增加最大序列长度。
  2. 我们目前正在研发一种结合英语和 X 语言的双语嵌入模型。即将推出的模型将命名为 jina-embedding-s/b/l-de-v1。

联系方式

加入我们的 Discord 社区,与其他社区成员交流想法。

引用

如果您在研究中发现 Jina Embeddings 有用,请引用以下论文:

@misc{günther2023jina,
      title={Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models}, 
      author={Michael Günther and Louis Milliken and Jonathan Geuter and Georgios Mastrapas and Bo Wang and Han Xiao},
      year={2023},
      eprint={2307.11224},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}