HuggingFace镜像/bge-large-en-v1.5-openmind

FlagEmbedding

模型列表 | 常见问题 | 使用方法 | 评估 | 训练 | 联系我们 | 引用 | 许可证

更多详情请参考我们的 Github：FlagEmbedding。

如果您正在寻找支持更多语言、更长文本以及其他检索方法的模型，可以尝试使用 bge-m3。

English | 中文

FlagEmbedding 专注于检索增强型大型语言模型（LLMs），目前包含以下项目：

长文本上下文 LLM：Activation Beacon
语言模型微调：LM-Cocktail
稠密检索：BGE-M3、LLM Embedder、BGE Embedding
重排序模型：BGE Reranker
基准测试：C-MTEB

模型列表

bge 是 BAAI general embedding 的缩写。

模型	语言		描述	检索查询指令 [1]
BAAI/bge-m3	多语言	推理微调	多功能（密集检索、稀疏检索、多向量（colbert））、多语言支持及多粒度（8192 tokens）
BAAI/llm-embedder	英语	推理微调	一款统一的嵌入模型，可满足大型语言模型（LLMs）多样化的检索增强需求	参见 README
BAAI/bge-reranker-large	中英文	推理微调	一种交叉编码器模型，准确率更高但效率较低 [2]
BAAI/bge-reranker-base	中英文	推理微调	一种交叉编码器模型，准确率更高但效率较低 [2]
BAAI/bge-large-en-v1.5	英语	推理微调	1.5 版本，具有更合理的相似度分布	`Represent this sentence for searching relevant passages:`
BAAI/bge-base-en-v1.5	英语	推理微调	1.5 版本，具有更合理的相似度分布	`Represent this sentence for searching relevant passages:`
BAAI/bge-small-en-v1.5	英语	推理微调	1.5 版本，具有更合理的相似度分布	`Represent this sentence for searching relevant passages:`
BAAI/bge-large-zh-v1.5	中文	推理微调	1.5 版本，具有更合理的相似度分布	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-base-zh-v1.5	中文	推理微调	1.5 版本，具有更合理的相似度分布	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-small-zh-v1.5	中文	推理微调	1.5 版本，具有更合理的相似度分布	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-large-en	英语	推理微调	:trophy: 在 MTEB 排行榜中排名第一	`Represent this sentence for searching relevant passages:`
BAAI/bge-base-en	英语	推理微调	基础规模模型，但能力与 `bge-large-en` 相近	`Represent this sentence for searching relevant passages:`
BAAI/bge-small-en	英语	推理微调	小型模型，但性能具有竞争力	`Represent this sentence for searching relevant passages:`
BAAI/bge-large-zh	中文	推理微调	:trophy: 在 C-MTEB 基准测试中排名第一	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-base-zh	中文	推理微调	基础规模模型，但能力与 `bge-large-zh` 相近	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-small-zh	中文	推理微调	小型模型，但性能具有竞争力	`为这个句子生成表示以用于检索相关文章：`

[1]: 如果您需要根据查询搜索相关段落，建议在查询中添加上述指令；在其他情况下，则无需添加指令，直接使用原始查询即可。在所有情况下，均无需为段落添加指令。

[2]: 与嵌入模型不同，重排序模型将问题和文档作为输入，直接输出相似度分数，而非嵌入向量。为了平衡准确率和时间成本，交叉编码器被广泛用于对其他简单模型检索出的前 k 个文档进行重排序。例如，使用 bge 嵌入模型检索出排名前 100 的相关文档，然后使用 bge 重排序模型对这前 100 个文档进行重排序，以获得最终的前 3 名结果。

所有模型均已上传至 Huggingface Hub，您可以通过 https://huggingface.co/BAAI 查看。如果您无法访问 Huggingface Hub，也可以通过 https://model.baai.ac.cn/models 下载模型。

常见问题

1. 如何微调 bge 嵌入模型？

按照此示例准备数据并微调您的模型。一些建议：

按照此示例挖掘难负样本，这可以提升检索性能。
如果您使用自己的数据预训练 bge，预训练模型不能直接用于计算相似度，必须先通过对比学习进行微调，然后才能计算相似度。
如果微调后模型的准确率仍然不高，建议使用/微调交叉编码器模型（bge-reranker）对 top-k 结果进行重排序。微调重排序模型时也需要难负样本。

2. 两个不相似句子之间的相似度分数高于 0.5

建议使用 bge v1.5，该版本缓解了相似度分布问题。

由于我们使用温度参数为 0.01 的对比学习对模型进行微调，当前 BGE 模型的相似度分布区间约为

$0.6, 1$

。因此，相似度分数大于 0.5 并不表示这两个句子相似。

对于下游任务，如段落检索或语义相似度，重要的是分数的相对顺序，而非绝对值。 如果您需要根据相似度阈值过滤相似句子，请根据您数据上的相似度分布选择合适的相似度阈值（例如 0.8、0.85，甚至 0.9）。

3. 何时需要使用查询指令

对于 bge-*-v1.5 版本，我们提升了其在不使用指令时的检索能力。不使用指令与使用指令相比，检索性能只会略有下降。因此，为方便起见，您在所有情况下都可以不使用指令生成嵌入。

对于使用短查询来查找相关长文档的检索任务，建议为这些短查询添加指令。判断是否为查询添加指令的最佳方法是选择在您的任务上表现更优的设置。 在所有情况下，文档/段落都不需要添加指令。

在 Openmind 中的使用

from openmind import AutoTokenizer, AutoModel, is_torch_npu_available
from openmind_hub import snapshot_download
import torch.nn.functional as F
from torch import Tensor
import openmind
import torch
import argparse
import time

# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  # First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="jeffding/bge-large-en-v1.5-openmind",
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
        
    # Load model from HuggingFace Hub
    tokenizer = AutoTokenizer.from_pretrained(model_path,trust_remote_code=True)
    model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(device)
    start_time = time.time()
    sentences = ['如何更换花呗绑定银行卡', 'How to replace the Huabei bundled bank card']
    # Tokenize sentences
    encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to(device)

    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)
    # Perform pooling. In this case, mean pooling.
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
    print("Sentence embeddings:")
    print(sentence_embeddings)
    
    end_time = time.time()
    print(f"硬件环境：{device},推理执行时间：{end_time - start_time}秒")
    
if __name__ == "__main__":
    main()

使用方法

嵌入模型使用方法

以下是使用 bge 模型的一些示例，分别结合 FlagEmbedding、Sentence-Transformers、Langchain 或 Huggingface Transformers。

使用 FlagEmbedding

pip install -U FlagEmbedding

如果该方法对你不起作用，你可以查看 FlagEmbedding 以获取更多安装 FlagEmbedding 的方法。

from FlagEmbedding import FlagModel
sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]
model = FlagModel('BAAI/bge-large-zh-v1.5', 
                  query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：",
                  use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation
embeddings_1 = model.encode(sentences_1)
embeddings_2 = model.encode(sentences_2)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

# for s2p(short query to long passage) retrieval task, suggest to use encode_queries() which will automatically add the instruction to each query
# corpus in retrieval task can still use encode() or encode_corpus(), since they don't need instruction
queries = ['query_1', 'query_2']
passages = ["样例文档-1", "样例文档-2"]
q_embeddings = model.encode_queries(queries)
p_embeddings = model.encode(passages)
scores = q_embeddings @ p_embeddings.T

关于参数query_instruction_for_retrieval的值，请参见模型列表。

默认情况下，FlagModel在编码时会使用所有可用的GPU。请设置os.environ["CUDA_VISIBLE_DEVICES"]来选择特定的GPU。您也可以设置os.environ["CUDA_VISIBLE_DEVICES"]=""，使所有GPU都不可用。

使用Sentence-Transformers

您还可以通过sentence-transformers使用bge模型：

pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer
sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]
model = SentenceTransformer('BAAI/bge-large-zh-v1.5')
embeddings_1 = model.encode(sentences_1, normalize_embeddings=True)
embeddings_2 = model.encode(sentences_2, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

在 s2p（短查询到长段落）检索任务中，每个短查询都应以指令开头（指令参见 Model List）。但段落不需要指令。

from sentence_transformers import SentenceTransformer
queries = ['query_1', 'query_2']
passages = ["样例文档-1", "样例文档-2"]
instruction = "为这个句子生成表示以用于检索相关文章："

model = SentenceTransformer('BAAI/bge-large-zh-v1.5')
q_embeddings = model.encode([instruction+q for q in queries], normalize_embeddings=True)
p_embeddings = model.encode(passages, normalize_embeddings=True)
scores = q_embeddings @ p_embeddings.T

使用 Langchain

您可以像这样在 langchain 中使用 bge：

from langchain.embeddings import HuggingFaceBgeEmbeddings
model_name = "BAAI/bge-large-en-v1.5"
model_kwargs = {'device': 'cuda'}
encode_kwargs = {'normalize_embeddings': True} # set True to compute cosine similarity
model = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
    query_instruction="为这个句子生成表示以用于检索相关文章："
)
model.query_instruction = "为这个句子生成表示以用于检索相关文章："

使用 HuggingFace Transformers

借助 transformers 包，您可以按以下方式使用该模型：首先，将输入传递给 transformer 模型，然后选择第一个标记（即 [CLS]）的最后一个隐藏状态作为句子嵌入。

from transformers import AutoTokenizer, AutoModel
import torch
# Sentences we want sentence embeddings for
sentences = ["样例数据-1", "样例数据-2"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5')
model = AutoModel.from_pretrained('BAAI/bge-large-zh-v1.5')
model.eval()

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# for s2p(short query to long passage) retrieval task, add an instruction to query (not add instruction for passages)
# encoded_input = tokenizer([instruction + q for q in queries], padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
    # Perform pooling. In this case, cls pooling.
    sentence_embeddings = model_output[0][:, 0]
# normalize embeddings
sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1)
print("Sentence embeddings:", sentence_embeddings)

ONNX 文件的使用方法

from optimum.onnxruntime import ORTModelForFeatureExtraction  # type: ignore

import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-en-v1.5')
model = AutoModel.from_pretrained('BAAI/bge-large-en-v1.5', revision="refs/pr/13")
model_ort = ORTModelForFeatureExtraction.from_pretrained('BAAI/bge-large-en-v1.5', revision="refs/pr/13",file_name="onnx/model.onnx")

# Sentences we want sentence embeddings for
sentences = ["样例数据-1", "样例数据-2"]

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# for s2p(short query to long passage) retrieval task, add an instruction to query (not add instruction for passages)
# encoded_input = tokenizer([instruction + q for q in queries], padding=True, truncation=True, return_tensors='pt')

model_output_ort = model_ort(**encoded_input)
# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# model_output and model_output_ort are identical

也可以使用 infinity_emb pip 包部署 onnx 文件。

import asyncio
from infinity_emb import AsyncEmbeddingEngine, EngineArgs

sentences = ["Embed this is sentence via Infinity.", "Paris is in France."]
engine = AsyncEmbeddingEngine.from_args(
    EngineArgs(model_name_or_path = "BAAI/bge-large-en-v1.5", device="cpu", engine="optimum" # or engine="torch"
))

async def main(): 
    async with engine:
        embeddings, usage = await engine.embed(sentences=sentences)
asyncio.run(main())

重排序模型使用方法

与嵌入模型不同，重排序模型将问题和文档作为输入，直接输出相似度，而非嵌入向量。您可以通过向重排序模型输入查询和段落来获取相关性分数。该重排序模型基于交叉熵损失进行优化，因此相关性分数并不局限于特定范围。

使用 FlagEmbedding

pip install -U FlagEmbedding

获取相关性分数（分数越高表示相关性越强）：

from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-large', use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation

score = reranker.compute_score(['query', 'passage'])
print(score)

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores)

使用 Huggingface transformers

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-reranker-large')
model = AutoModelForSequenceClassification.from_pretrained('BAAI/bge-reranker-large')
model.eval()

pairs = [['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

评估

baai-general-embedding 模型在 MTEB 和 C-MTEB 排行榜上均取得了最先进的性能！ 有关更多详细信息和评估工具，请参见我们的脚本。

MTEB：

模型名称	维度	序列长度	平均值（56）	检索（15）	聚类（11）	对分类（3）	重排序（4）	STS（10）	摘要（1）	分类（12）
BAAI/bge-large-en-v1.5	1024	512	64.23	54.29	46.08	87.12	60.03	83.11	31.61	75.97
BAAI/bge-base-en-v1.5	768	512	63.55	53.25	45.77	86.55	58.86	82.4	31.07	75.53
BAAI/bge-small-en-v1.5	384	512	62.17	51.68	43.82	84.92	58.36	81.59	30.12	74.14
bge-large-en	1024	512	63.98	53.9	46.98	85.8	59.48	81.56	32.06	76.21
bge-base-en	768	512	63.36	53.0	46.32	85.86	58.7	81.84	29.27	75.27
gte-large	1024	512	63.13	52.22	46.84	85.00	59.13	83.35	31.66	73.33
gte-base	768	512	62.39	51.14	46.2	84.57	58.61	82.3	31.17	73.01
e5-large-v2	1024	512	62.25	50.56	44.49	86.03	56.61	82.05	30.19	75.24
bge-small-en	384	512	62.11	51.82	44.31	83.78	57.97	80.72	30.53	74.37
instructor-xl	768	512	61.79	49.26	44.74	86.62	57.29	83.06	32.32	61.79
e5-base-v2	768	512	61.5	50.29	43.80	85.73	55.91	81.05	30.28	73.84
gte-small	384	512	61.36	49.46	44.89	83.54	57.7	82.07	30.42	72.31
text-embedding-ada-002	1536	8192	60.99	49.25	45.9	84.89	56.32	80.97	30.8	70.93
e5-small-v2	384	512	59.93	49.04	39.92	84.67	54.32	80.39	31.16	72.94
sentence-t5-xxl	768	512	59.51	42.24	43.72	85.06	56.42	82.63	30.08	73.42
all-mpnet-base-v2	768	514	57.78	43.81	43.69	83.04	59.36	80.28	27.49	65.07
sgpt-bloom-7b1-msmarco	4096	2048	57.59	48.22	38.93	81.9	55.65	77.74	33.6	66.19

C-MTEB：我们创建了中文文本嵌入基准 C-MTEB，它包含来自 6 个任务的 31 个数据集。有关详细介绍，请参考 C_MTEB。

模型	嵌入维度	平均值	检索	STS	对分类	分类	重排序	聚类
BAAI/bge-large-zh-v1.5	1024	64.53	70.46	56.25	81.6	69.13	65.84	48.99
BAAI/bge-base-zh-v1.5	768	63.13	69.49	53.72	79.75	68.07	65.39	47.53
BAAI/bge-small-zh-v1.5	512	57.82	61.77	49.11	70.41	63.96	60.92	44.18
BAAI/bge-large-zh	1024	64.20	71.53	54.98	78.94	68.32	65.11	48.39
bge-large-zh-noinstruct	1024	63.53	70.55	53	76.77	68.58	64.91	50.01
BAAI/bge-base-zh	768	62.96	69.53	54.12	77.5	67.07	64.91	47.63
multilingual-e5-large	1024	58.79	63.66	48.44	69.89	67.34	56.00	48.23
BAAI/bge-small-zh	512	58.27	63.07	49.45	70.35	63.64	61.48	45.09
m3e-base	768	57.10	56.91	50.47	63.99	67.52	59.34	47.68
m3e-large	1024	57.05	54.75	50.42	64.3	68.2	59.66	48.88
multilingual-e5-base	768	55.48	61.63	46.49	67.07	65.35	54.35	40.68
multilingual-e5-small	384	55.38	59.95	45.27	66.45	65.85	53.86	45.26
text-embedding-ada-002(OpenAI)	1536	53.02	52.0	43.35	69.56	64.31	54.28	45.68
luotuo	1024	49.37	44.4	42.78	66.62	61	49.25	44.39
text2vec-base	768	47.63	38.79	43.41	67.41	62.19	49.45	37.66
text2vec-large	1024	47.36	41.94	44.97	70.86	60.66	49.16	30.02

重排序：评估脚本详见 C_MTEB。

模型	T2Reranking	T2RerankingZh2En*	T2RerankingEn2Zh*	MMarcoReranking	CMedQAv1	CMedQAv2	平均值
text2vec-base-multilingual	64.66	62.94	62.51	14.37	48.46	48.6	50.26
multilingual-e5-small	65.62	60.94	56.41	29.91	67.26	66.54	57.78
multilingual-e5-large	64.55	61.61	54.28	28.6	67.42	67.92	57.4
multilingual-e5-base	64.21	62.13	54.68	29.5	66.23	66.98	57.29
m3e-base	66.03	62.74	56.07	17.51	77.05	76.76	59.36
m3e-large	66.13	62.72	56.1	16.46	77.76	78.27	59.57
bge-base-zh-v1.5	66.49	63.25	57.02	29.74	80.47	84.88	63.64
bge-large-zh-v1.5	65.74	63.39	57.03	28.74	83.45	85.44	63.97
BAAI/bge-reranker-base	67.28	63.95	60.45	35.46	81.26	84.1	65.42
BAAI/bge-reranker-large	67.6	64.03	61.44	37.16	82.15	84.18	66.09

*：T2RerankingZh2En 和 T2RerankingEn2Zh 是跨语言检索任务

训练

BAAI 嵌入模型

我们使用 retromae 对模型进行预训练，并通过对比学习在大规模数据对上对其进行训练。 您可以按照我们的示例在您的数据上微调嵌入模型。 我们还提供了一个预训练示例。请注意，预训练的目标是文本重构，预训练模型不能直接用于相似度计算，需要进行微调。关于 bge 的更多训练细节，请参见 baai_general_embedding。

BGE 重排序模型

交叉编码器会对输入对执行全注意力计算，其准确率高于嵌入模型（即双编码器），但耗时也更多。因此，它可用于对嵌入模型返回的前 k 个文档进行重排序。我们在多语言数据对上训练交叉编码器，其数据格式与嵌入模型相同，因此您可以按照我们的示例轻松对其进行微调。更多详情请参考 ./FlagEmbedding/reranker/README.md

联系方式

如果您对本项目有任何问题或建议，欢迎提交 issue 或 pull request。您也可以发送邮件至 Shitao Xiao（stxiao@baai.ac.cn）和 Zheng Liu（liuzheng@baai.ac.cn）。

引用

如果您觉得本仓库对您有帮助，请考虑给予星级 :star: 并引用。

@misc{bge_embedding,
      title={C-Pack: Packaged Resources To Advance General Chinese Embedding}, 
      author={Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff},
      year={2023},
      eprint={2309.07597},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

许可协议

FlagEmbedding 根据 MIT 许可协议进行授权。已发布的模型可免费用于商业用途。

FlagEmbedding

模型列表 | 常见问题 | 使用方法 | 评估 | 训练 | 联系我们 | 引用 | 许可证

更多详情请参考我们的 Github：FlagEmbedding。

如果您正在寻找支持更多语言、更长文本以及其他检索方法的模型，可以尝试使用 bge-m3。

English | 中文

FlagEmbedding 专注于检索增强型大型语言模型（LLMs），目前包含以下项目：

长文本上下文 LLM：Activation Beacon
语言模型微调：LM-Cocktail
稠密检索：BGE-M3、LLM Embedder、BGE Embedding
重排序模型：BGE Reranker
基准测试：C-MTEB

模型列表

bge 是 BAAI general embedding 的缩写。

模型	语言		描述	检索查询指令 [1]
BAAI/bge-m3	多语言	推理微调	多功能（密集检索、稀疏检索、多向量（colbert））、多语言支持及多粒度（8192 tokens）
BAAI/llm-embedder	英语	推理微调	一款统一的嵌入模型，可满足大型语言模型（LLMs）多样化的检索增强需求	参见 README
BAAI/bge-reranker-large	中英文	推理微调	一种交叉编码器模型，准确率更高但效率较低 [2]
BAAI/bge-reranker-base	中英文	推理微调	一种交叉编码器模型，准确率更高但效率较低 [2]
BAAI/bge-large-en-v1.5	英语	推理微调	1.5 版本，具有更合理的相似度分布	`Represent this sentence for searching relevant passages:`
BAAI/bge-base-en-v1.5	英语	推理微调	1.5 版本，具有更合理的相似度分布	`Represent this sentence for searching relevant passages:`
BAAI/bge-small-en-v1.5	英语	推理微调	1.5 版本，具有更合理的相似度分布	`Represent this sentence for searching relevant passages:`
BAAI/bge-large-zh-v1.5	中文	推理微调	1.5 版本，具有更合理的相似度分布	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-base-zh-v1.5	中文	推理微调	1.5 版本，具有更合理的相似度分布	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-small-zh-v1.5	中文	推理微调	1.5 版本，具有更合理的相似度分布	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-large-en	英语	推理微调	:trophy: 在 MTEB 排行榜中排名第一	`Represent this sentence for searching relevant passages:`
BAAI/bge-base-en	英语	推理微调	基础规模模型，但能力与 `bge-large-en` 相近	`Represent this sentence for searching relevant passages:`
BAAI/bge-small-en	英语	推理微调	小型模型，但性能具有竞争力	`Represent this sentence for searching relevant passages:`
BAAI/bge-large-zh	中文	推理微调	:trophy: 在 C-MTEB 基准测试中排名第一	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-base-zh	中文	推理微调	基础规模模型，但能力与 `bge-large-zh` 相近	`为这个句子生成表示以用于检索相关文章：`
BAAI/bge-small-zh	中文	推理微调	小型模型，但性能具有竞争力	`为这个句子生成表示以用于检索相关文章：`

常见问题

1. 如何微调 bge 嵌入模型？

按照此示例准备数据并微调您的模型。一些建议：

按照此示例挖掘难负样本，这可以提升检索性能。
如果您使用自己的数据预训练 bge，预训练模型不能直接用于计算相似度，必须先通过对比学习进行微调，然后才能计算相似度。
如果微调后模型的准确率仍然不高，建议使用/微调交叉编码器模型（bge-reranker）对 top-k 结果进行重排序。微调重排序模型时也需要难负样本。

2. 两个不相似句子之间的相似度分数高于 0.5

建议使用 bge v1.5，该版本缓解了相似度分布问题。

由于我们使用温度参数为 0.01 的对比学习对模型进行微调，当前 BGE 模型的相似度分布区间约为

$0.6, 1$

。因此，相似度分数大于 0.5 并不表示这两个句子相似。

3. 何时需要使用查询指令

在 Openmind 中的使用

from openmind import AutoTokenizer, AutoModel, is_torch_npu_available
from openmind_hub import snapshot_download
import torch.nn.functional as F
from torch import Tensor
import openmind
import torch
import argparse
import time

# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  # First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="jeffding/bge-large-en-v1.5-openmind",
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
        
    # Load model from HuggingFace Hub
    tokenizer = AutoTokenizer.from_pretrained(model_path,trust_remote_code=True)
    model = AutoModel.from_pretrained(model_path, trust_remote_code=True).to(device)
    start_time = time.time()
    sentences = ['如何更换花呗绑定银行卡', 'How to replace the Huabei bundled bank card']
    # Tokenize sentences
    encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to(device)

    # Compute token embeddings
    with torch.no_grad():
        model_output = model(**encoded_input)
    # Perform pooling. In this case, mean pooling.
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
    print("Sentence embeddings:")
    print(sentence_embeddings)
    
    end_time = time.time()
    print(f"硬件环境：{device},推理执行时间：{end_time - start_time}秒")
    
if __name__ == "__main__":
    main()

使用方法

嵌入模型使用方法

以下是使用 bge 模型的一些示例，分别结合 FlagEmbedding、Sentence-Transformers、Langchain 或 Huggingface Transformers。

使用 FlagEmbedding

pip install -U FlagEmbedding

如果该方法对你不起作用，你可以查看 FlagEmbedding 以获取更多安装 FlagEmbedding 的方法。

from FlagEmbedding import FlagModel
sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]
model = FlagModel('BAAI/bge-large-zh-v1.5', 
                  query_instruction_for_retrieval="为这个句子生成表示以用于检索相关文章：",
                  use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation
embeddings_1 = model.encode(sentences_1)
embeddings_2 = model.encode(sentences_2)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

# for s2p(short query to long passage) retrieval task, suggest to use encode_queries() which will automatically add the instruction to each query
# corpus in retrieval task can still use encode() or encode_corpus(), since they don't need instruction
queries = ['query_1', 'query_2']
passages = ["样例文档-1", "样例文档-2"]
q_embeddings = model.encode_queries(queries)
p_embeddings = model.encode(passages)
scores = q_embeddings @ p_embeddings.T

关于参数query_instruction_for_retrieval的值，请参见模型列表。

使用Sentence-Transformers

您还可以通过sentence-transformers使用bge模型：

pip install -U sentence-transformers

from sentence_transformers import SentenceTransformer
sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]
model = SentenceTransformer('BAAI/bge-large-zh-v1.5')
embeddings_1 = model.encode(sentences_1, normalize_embeddings=True)
embeddings_2 = model.encode(sentences_2, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

在 s2p（短查询到长段落）检索任务中，每个短查询都应以指令开头（指令参见 Model List）。但段落不需要指令。

from sentence_transformers import SentenceTransformer
queries = ['query_1', 'query_2']
passages = ["样例文档-1", "样例文档-2"]
instruction = "为这个句子生成表示以用于检索相关文章："

model = SentenceTransformer('BAAI/bge-large-zh-v1.5')
q_embeddings = model.encode([instruction+q for q in queries], normalize_embeddings=True)
p_embeddings = model.encode(passages, normalize_embeddings=True)
scores = q_embeddings @ p_embeddings.T

使用 Langchain

您可以像这样在 langchain 中使用 bge：

from langchain.embeddings import HuggingFaceBgeEmbeddings
model_name = "BAAI/bge-large-en-v1.5"
model_kwargs = {'device': 'cuda'}
encode_kwargs = {'normalize_embeddings': True} # set True to compute cosine similarity
model = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
    query_instruction="为这个句子生成表示以用于检索相关文章："
)
model.query_instruction = "为这个句子生成表示以用于检索相关文章："

使用 HuggingFace Transformers

from transformers import AutoTokenizer, AutoModel
import torch
# Sentences we want sentence embeddings for
sentences = ["样例数据-1", "样例数据-2"]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh-v1.5')
model = AutoModel.from_pretrained('BAAI/bge-large-zh-v1.5')
model.eval()

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# for s2p(short query to long passage) retrieval task, add an instruction to query (not add instruction for passages)
# encoded_input = tokenizer([instruction + q for q in queries], padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
    # Perform pooling. In this case, cls pooling.
    sentence_embeddings = model_output[0][:, 0]
# normalize embeddings
sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1)
print("Sentence embeddings:", sentence_embeddings)

ONNX 文件的使用方法

from optimum.onnxruntime import ORTModelForFeatureExtraction  # type: ignore

import torch
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-en-v1.5')
model = AutoModel.from_pretrained('BAAI/bge-large-en-v1.5', revision="refs/pr/13")
model_ort = ORTModelForFeatureExtraction.from_pretrained('BAAI/bge-large-en-v1.5', revision="refs/pr/13",file_name="onnx/model.onnx")

# Sentences we want sentence embeddings for
sentences = ["样例数据-1", "样例数据-2"]

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# for s2p(short query to long passage) retrieval task, add an instruction to query (not add instruction for passages)
# encoded_input = tokenizer([instruction + q for q in queries], padding=True, truncation=True, return_tensors='pt')

model_output_ort = model_ort(**encoded_input)
# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# model_output and model_output_ort are identical

也可以使用 infinity_emb pip 包部署 onnx 文件。

import asyncio
from infinity_emb import AsyncEmbeddingEngine, EngineArgs

sentences = ["Embed this is sentence via Infinity.", "Paris is in France."]
engine = AsyncEmbeddingEngine.from_args(
    EngineArgs(model_name_or_path = "BAAI/bge-large-en-v1.5", device="cpu", engine="optimum" # or engine="torch"
))

async def main(): 
    async with engine:
        embeddings, usage = await engine.embed(sentences=sentences)
asyncio.run(main())

重排序模型使用方法

使用 FlagEmbedding

pip install -U FlagEmbedding

获取相关性分数（分数越高表示相关性越强）：

from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-large', use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation

score = reranker.compute_score(['query', 'passage'])
print(score)

scores = reranker.compute_score([['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']])
print(scores)

使用 Huggingface transformers

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-reranker-large')
model = AutoModelForSequenceClassification.from_pretrained('BAAI/bge-reranker-large')
model.eval()

pairs = [['what is panda?', 'hi'], ['what is panda?', 'The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China.']]
with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

评估

baai-general-embedding 模型在 MTEB 和 C-MTEB 排行榜上均取得了最先进的性能！ 有关更多详细信息和评估工具，请参见我们的脚本。

MTEB：

模型名称	维度	序列长度	平均值（56）	检索（15）	聚类（11）	对分类（3）	重排序（4）	STS（10）	摘要（1）	分类（12）
BAAI/bge-large-en-v1.5	1024	512	64.23	54.29	46.08	87.12	60.03	83.11	31.61	75.97
BAAI/bge-base-en-v1.5	768	512	63.55	53.25	45.77	86.55	58.86	82.4	31.07	75.53
BAAI/bge-small-en-v1.5	384	512	62.17	51.68	43.82	84.92	58.36	81.59	30.12	74.14
bge-large-en	1024	512	63.98	53.9	46.98	85.8	59.48	81.56	32.06	76.21
bge-base-en	768	512	63.36	53.0	46.32	85.86	58.7	81.84	29.27	75.27
gte-large	1024	512	63.13	52.22	46.84	85.00	59.13	83.35	31.66	73.33
gte-base	768	512	62.39	51.14	46.2	84.57	58.61	82.3	31.17	73.01
e5-large-v2	1024	512	62.25	50.56	44.49	86.03	56.61	82.05	30.19	75.24
bge-small-en	384	512	62.11	51.82	44.31	83.78	57.97	80.72	30.53	74.37
instructor-xl	768	512	61.79	49.26	44.74	86.62	57.29	83.06	32.32	61.79
e5-base-v2	768	512	61.5	50.29	43.80	85.73	55.91	81.05	30.28	73.84
gte-small	384	512	61.36	49.46	44.89	83.54	57.7	82.07	30.42	72.31
text-embedding-ada-002	1536	8192	60.99	49.25	45.9	84.89	56.32	80.97	30.8	70.93
e5-small-v2	384	512	59.93	49.04	39.92	84.67	54.32	80.39	31.16	72.94
sentence-t5-xxl	768	512	59.51	42.24	43.72	85.06	56.42	82.63	30.08	73.42
all-mpnet-base-v2	768	514	57.78	43.81	43.69	83.04	59.36	80.28	27.49	65.07
sgpt-bloom-7b1-msmarco	4096	2048	57.59	48.22	38.93	81.9	55.65	77.74	33.6	66.19

C-MTEB：我们创建了中文文本嵌入基准 C-MTEB，它包含来自 6 个任务的 31 个数据集。有关详细介绍，请参考 C_MTEB。

模型	嵌入维度	平均值	检索	STS	对分类	分类	重排序	聚类
BAAI/bge-large-zh-v1.5	1024	64.53	70.46	56.25	81.6	69.13	65.84	48.99
BAAI/bge-base-zh-v1.5	768	63.13	69.49	53.72	79.75	68.07	65.39	47.53
BAAI/bge-small-zh-v1.5	512	57.82	61.77	49.11	70.41	63.96	60.92	44.18
BAAI/bge-large-zh	1024	64.20	71.53	54.98	78.94	68.32	65.11	48.39
bge-large-zh-noinstruct	1024	63.53	70.55	53	76.77	68.58	64.91	50.01
BAAI/bge-base-zh	768	62.96	69.53	54.12	77.5	67.07	64.91	47.63
multilingual-e5-large	1024	58.79	63.66	48.44	69.89	67.34	56.00	48.23
BAAI/bge-small-zh	512	58.27	63.07	49.45	70.35	63.64	61.48	45.09
m3e-base	768	57.10	56.91	50.47	63.99	67.52	59.34	47.68
m3e-large	1024	57.05	54.75	50.42	64.3	68.2	59.66	48.88
multilingual-e5-base	768	55.48	61.63	46.49	67.07	65.35	54.35	40.68
multilingual-e5-small	384	55.38	59.95	45.27	66.45	65.85	53.86	45.26
text-embedding-ada-002(OpenAI)	1536	53.02	52.0	43.35	69.56	64.31	54.28	45.68
luotuo	1024	49.37	44.4	42.78	66.62	61	49.25	44.39
text2vec-base	768	47.63	38.79	43.41	67.41	62.19	49.45	37.66
text2vec-large	1024	47.36	41.94	44.97	70.86	60.66	49.16	30.02

重排序：评估脚本详见 C_MTEB。

模型	T2Reranking	T2RerankingZh2En*	T2RerankingEn2Zh*	MMarcoReranking	CMedQAv1	CMedQAv2	平均值
text2vec-base-multilingual	64.66	62.94	62.51	14.37	48.46	48.6	50.26
multilingual-e5-small	65.62	60.94	56.41	29.91	67.26	66.54	57.78
multilingual-e5-large	64.55	61.61	54.28	28.6	67.42	67.92	57.4
multilingual-e5-base	64.21	62.13	54.68	29.5	66.23	66.98	57.29
m3e-base	66.03	62.74	56.07	17.51	77.05	76.76	59.36
m3e-large	66.13	62.72	56.1	16.46	77.76	78.27	59.57
bge-base-zh-v1.5	66.49	63.25	57.02	29.74	80.47	84.88	63.64
bge-large-zh-v1.5	65.74	63.39	57.03	28.74	83.45	85.44	63.97
BAAI/bge-reranker-base	67.28	63.95	60.45	35.46	81.26	84.1	65.42
BAAI/bge-reranker-large	67.6	64.03	61.44	37.16	82.15	84.18	66.09

*：T2RerankingZh2En 和 T2RerankingEn2Zh 是跨语言检索任务

训练

BAAI 嵌入模型

BGE 重排序模型

联系方式

如果您对本项目有任何问题或建议，欢迎提交 issue 或 pull request。您也可以发送邮件至 Shitao Xiao（stxiao@baai.ac.cn）和 Zheng Liu（liuzheng@baai.ac.cn）。

引用

如果您觉得本仓库对您有帮助，请考虑给予星级 :star: 并引用。

@misc{bge_embedding,
      title={C-Pack: Packaged Resources To Advance General Chinese Embedding}, 
      author={Shitao Xiao and Zheng Liu and Peitian Zhang and Niklas Muennighoff},
      year={2023},
      eprint={2309.07597},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

许可协议

FlagEmbedding 根据 MIT 许可协议进行授权。已发布的模型可免费用于商业用途。

FlagEmbedding

模型列表 | 常见问题 | 使用方法 | 评估 | 训练 | 联系我们 | 引用 | 许可证

最新动态

模型列表

常见问题

在 Openmind 中的使用

使用方法

嵌入模型使用方法

使用 FlagEmbedding

使用Sentence-Transformers

使用 Langchain

使用 HuggingFace Transformers

ONNX 文件的使用方法

重排序模型使用方法

使用 FlagEmbedding

使用 Huggingface transformers

评估

训练

BAAI 嵌入模型

BGE 重排序模型

联系方式

引用

许可协议

FlagEmbedding

模型列表 | 常见问题 | 使用方法 | 评估 | 训练 | 联系我们 | 引用 | 许可证

最新动态

模型列表

常见问题

在 Openmind 中的使用

使用方法

嵌入模型使用方法

使用 FlagEmbedding

使用Sentence-Transformers

使用 Langchain

使用 HuggingFace Transformers

ONNX 文件的使用方法

重排序模型使用方法

使用 FlagEmbedding

使用 Huggingface transformers

评估

训练

BAAI 嵌入模型

BGE 重排序模型

联系方式

引用

许可协议