HuggingFace镜像/xlm-roberta-large-ner-hrl
模型介绍文件和版本分析
下载使用量0

Hugging Face 的徽标

语言:

  • ar
  • de
  • en
  • es
  • fr
  • it
  • lv
  • nl
  • pt
  • zh
  • multilingual

xlm-roberta-large-ner-hrl

模型说明

xlm-roberta-large-ner-hrl 是一个命名实体识别模型,适用于 10 种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文),基于微调的 XLM-RoBERTa large 模型构建。该模型经过训练,能够识别三种类型的实体:地点(LOC)、组织(ORG)和人物(PER)。 具体而言,此模型是一个 xlm-roberta-large 模型,在 10 种高资源语言的聚合数据上进行了微调。

预期用途与限制

如何使用

您可以将此模型与 Transformers 的 pipeline 结合用于命名实体识别任务。

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)

局限性与偏差

本模型受限于其实体标注新闻文章的训练数据集,该数据集仅涵盖特定时间段的内容。因此,它可能无法很好地适用于不同领域的所有使用场景。

训练数据

10种语言的训练数据来源如下:

语言数据集
阿拉伯语ANERcorp
德语conll 2003
英语conll 2003
西班牙语conll 2002
法语Europeana Newspapers
意大利语Italian I-CAB
拉脱维亚语Latvian NER
荷兰语conll 2002
葡萄牙语Paramopama + Second Harem
中文MSRA

训练数据集对实体的起始和延续进行了区分,以便当存在连续的相同类型实体时,模型能够识别第二个实体的起始位置。与数据集一致,每个 token 将被分类为以下类别之一:

缩写描述
O非命名实体
B-PER紧接在另一个人名之后的人名起始
I-PER人名
B-ORG紧接在另一个组织之后的组织起始
I-ORG组织
B-LOC紧接在另一个地点之后的地点起始
I-LOC地点

训练过程

本模型在 NVIDIA V100 GPU 上进行训练,采用了 HuggingFace 代码推荐的超参数。