Hugging Face 的徽标

语言：

ar
de
en
es
fr
it
lv
nl
pt
zh
multilingual

xlm-roberta-large-ner-hrl

模型说明

xlm-roberta-large-ner-hrl 是一个命名实体识别模型，适用于 10 种高资源语言（阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文），基于微调的 XLM-RoBERTa large 模型构建。该模型经过训练，能够识别三种类型的实体：地点（LOC）、组织（ORG）和人物（PER）。具体而言，此模型是一个 xlm-roberta-large 模型，在 10 种高资源语言的聚合数据上进行了微调。

预期用途与限制

如何使用

您可以将此模型与 Transformers 的 pipeline 结合用于命名实体识别任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

局限性与偏差

本模型受限于其实体标注新闻文章的训练数据集，该数据集仅涵盖特定时间段的内容。因此，它可能无法很好地适用于不同领域的所有使用场景。

训练数据

10种语言的训练数据来源如下：

语言	数据集
阿拉伯语	ANERcorp
德语	conll 2003
英语	conll 2003
西班牙语	conll 2002
法语	Europeana Newspapers
意大利语	Italian I-CAB
拉脱维亚语	Latvian NER
荷兰语	conll 2002
葡萄牙语	Paramopama + Second Harem
中文	MSRA

训练数据集对实体的起始和延续进行了区分，以便当存在连续的相同类型实体时，模型能够识别第二个实体的起始位置。与数据集一致，每个 token 将被分类为以下类别之一：

缩写	描述
O	非命名实体
B-PER	紧接在另一个人名之后的人名起始
I-PER	人名
B-ORG	紧接在另一个组织之后的组织起始
I-ORG	组织
B-LOC	紧接在另一个地点之后的地点起始
I-LOC	地点

训练过程

本模型在 NVIDIA V100 GPU 上进行训练，采用了 HuggingFace 代码推荐的超参数。

模型说明

预期用途与限制

如何使用

您可以将此模型与 Transformers 的 pipeline 结合用于命名实体识别任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

局限性与偏差

本模型受限于其实体标注新闻文章的训练数据集，该数据集仅涵盖特定时间段的内容。因此，它可能无法很好地适用于不同领域的所有使用场景。

训练数据

10种语言的训练数据来源如下：

语言

数据集

阿拉伯语

德语

英语

西班牙语

法语

意大利语

拉脱维亚语

荷兰语

葡萄牙语

Paramopama + Second Harem

中文

MSRA

缩写	描述
O	非命名实体
B-PER	紧接在另一个人名之后的人名起始
I-PER	人名
B-ORG	紧接在另一个组织之后的组织起始
I-ORG	组织
B-LOC	紧接在另一个地点之后的地点起始
I-LOC	地点