jina-embeddings-v2-base-de:可用于文本特征提取与相似度计算，支持分类、检索、聚类等任务，在多语言场景下表现良好，基于 transformers 生态，提供丰富评估指标与可靠性能。【此简介由AI生成】

HuggingFace镜像/jina-embeddings-v2-base-de

由 Jina AI 训练的文本嵌入模型。

快速开始

使用 jina-embeddings-v2-base-de 最简单的方法是使用 Jina AI 的 Embedding API。

预期用途与模型信息

jina-embeddings-v2-base-de 是一款德/英双语文本嵌入模型，支持8192序列长度。它基于 BERT 架构（JinaBERT），支持 ALiBi 的对称双向变体，以实现更长的序列长度。我们设计此模型旨在单语和跨语言应用中实现高性能，并对其进行专门训练，以支持德英混合输入且无偏倚。此外，我们还提供以下嵌入模型：

jina-embeddings-v2-base-de 是一款德/英双语文本嵌入模型，支持长度达8192个标记的文本输入。它基于改良的 Bert 模型架构 JinaBERT，该架构通过 ALiBi 的对称变体实现了更长的输入文本处理。我们开发此模型是为了在单语和跨语言应用中实现高性能，并对其进行了专门训练，以无偏倚的方式编码德英混合输入。此外，我们还提供以下嵌入模型：

数据与参数

数据和训练详情在本技术报告中进行了描述。

使用方法

集成模型时请应用均值池化（mean pooling）。

为何选择均值池化？

均值池化 会获取模型输出的所有标记嵌入，并在句子/段落级别对其进行平均。事实证明，这是生成高质量句子嵌入的最有效方法。我们提供了一个 encode 函数来处理此过程。

不过，如果您希望不使用默认的 encode 函数来实现：

# coding = utf-8
import os
import torch
import torch_npu

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

import argparse
from openmind import pipeline, is_torch_npu_available
parser = argparse.ArgumentParser(description='manual to this script')
parser.add_argument("--model_name_or_path", type=str, default="./")
args = parser.parse_args()
model_path = args.model_name_or_path
device = None
if is_torch_npu_available():
    device = "npu:0"
else:
    device = "cpu"


model = SentenceTransformer(model_path)
model = model.to(device)
embeddings = model.encode(['How is the weather today?', 'Wie ist das Wetter heute?'])

cosine_scores = cos_sim(embeddings[0], embeddings[1])
print(f"cosine_scores: {cosine_scores}")

Transformers 包的替代方案

托管 SaaS：在 Jina AI 的 Embedding API 上获取免费密钥即可开始使用。
私有高性能部署：从我们的模型套件中选择模型，并在 AWS Sagemaker 上部署，即可开始使用。

基准测试结果

我们在所有可用的德语和英语评估任务上对我们的双语模型进行了评估。此外，我们还在其他一些德语评估任务上，将这些模型与其他几个德语、英语和多语言模型进行了对比评估：

将 Jina Embeddings 用于 RAG

根据 LLamaIndex 最新的博客文章：

总之，要在命中率和 MRR 上都达到最佳性能，OpenAI 或 JinaAI-Base 嵌入与 CohereRerank/bge-reranker-large 重排序器的组合表现突出。

联系方式

加入我们的 Discord 社区，与其他社区成员交流想法。

引用

如果您在研究中发现 Jina Embeddings 有用，请引用以下论文：

@article{mohr2024multi,
  title={Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings},
  author={Mohr, Isabelle and Krimmel, Markus and Sturua, Saba and Akram, Mohammad Kalim and Koukounas, Andreas and G{\"u}nther, Michael and Mastrapas, Georgios and Ravishankar, Vinit and Mart{\'\i}nez, Joan Fontanals and Wang, Feng and others},
  journal={arXiv preprint arXiv:2402.17016},
  year={2024}
}