语言:
xlm-roberta-large-ner-hrl 是一个命名实体识别模型,适用于 10 种高资源语言(阿拉伯语、德语、英语、西班牙语、法语、意大利语、拉脱维亚语、荷兰语、葡萄牙语和中文),基于微调的 XLM-RoBERTa large 模型构建。该模型经过训练,能够识别三种类型的实体:地点(LOC)、组织(ORG)和人物(PER)。 具体而言,此模型是一个 xlm-roberta-large 模型,在 10 种高资源语言的聚合数据上进行了微调。
您可以将此模型与 Transformers 的 pipeline 结合用于命名实体识别任务。
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
model = AutoModelForTokenClassification.from_pretrained("Davlan/xlm-roberta-large-ner-hrl")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "Nader Jokhadar had given Syria the lead with a well-struck header in the seventh minute."
ner_results = nlp(example)
print(ner_results)本模型受限于其实体标注新闻文章的训练数据集,该数据集仅涵盖特定时间段的内容。因此,它可能无法很好地适用于不同领域的所有使用场景。
10种语言的训练数据来源如下:
| 语言 | 数据集 |
|---|---|
| 阿拉伯语 | ANERcorp |
| 德语 | conll 2003 |
| 英语 | conll 2003 |
| 西班牙语 | conll 2002 |
| 法语 | Europeana Newspapers |
| 意大利语 | Italian I-CAB |
| 拉脱维亚语 | Latvian NER |
| 荷兰语 | conll 2002 |
| 葡萄牙语 | Paramopama + Second Harem |
| 中文 | MSRA |
训练数据集对实体的起始和延续进行了区分,以便当存在连续的相同类型实体时,模型能够识别第二个实体的起始位置。与数据集一致,每个 token 将被分类为以下类别之一:
| 缩写 | 描述 |
|---|---|
| O | 非命名实体 |
| B-PER | 紧接在另一个人名之后的人名起始 |
| I-PER | 人名 |
| B-ORG | 紧接在另一个组织之后的组织起始 |
| I-ORG | 组织 |
| B-LOC | 紧接在另一个地点之后的地点起始 |
| I-LOC | 地点 |
本模型在 NVIDIA V100 GPU 上进行训练,采用了 HuggingFace 代码推荐的超参数。