HuggingFace镜像/bert-base-NER-Russian
模型介绍文件和版本分析
下载使用量0

俄语命名实体识别模型

模型说明

该模型是 bert-base-multilingual-cased 的微调版本,适用于俄语文本的命名实体识别(NER)。它能够使用 BIOLU 标记格式识别多种实体类型,例如人名的名字、父称、姓氏,以及城市、地区等。

预期用途和局限性

该模型旨在识别俄语文本中的命名实体。它可用于信息提取、内容分析以及下游自然语言处理任务的文本预处理等工作。

使用方法

以下是使用该模型的简单示例:

from transformers import pipeline

ner_pipe = pipeline("ner", model="Gherman/bert-base-NER-Russian")

text = "Меня зовут Сергей Иванович из Москвы."
results = ner_pipe(text)

for result in results:
    print(f"Word: {result['word']}, Entity: {result['entity']}, Score: {result['score']:.4f}")

局限性与偏差

  • 模型性能可能会因输入文本的领域和风格而有所不同。
  • 对于训练期间未见过的罕见或复杂实体名称,模型可能难以识别。
  • 模型可能会表现出训练数据中存在的偏差。

训练数据

该模型是在 AlexKly 的 Detailed-NER-Dataset-RU 上训练的。这个数据集非常不错,建议查看!

标签信息

数据集采用 BIOLU 格式进行标注,其中:

  • B:实体的起始 token
  • I:实体的内部 token
  • O:其他(非实体)token
  • L:实体的最后一个 token
  • U:单个 token 的实体(单元 token)

数据集中包含以下实体类型:

地点(LOC)标签:

  • COUNTRY(国家)
  • REGION(地区)
  • CITY(城市)
  • DISTRICT(区)
  • STREET(街道)
  • HOUSE(房屋)

人物(PER)标签:

  • LAST_NAME(姓氏)
  • FIRST_NAME(名字)
  • MIDDLE_NAME(中间名)

例如,完整标签可能是“B-CITY”(表示城市名称的起始 token),或者“U-COUNTRY”(表示单个 token 的国家名称)。

训练过程

该模型是基于 bert-base-multilingual-cased checkpoint,使用 Hugging Face Transformers 库进行微调的。

训练超参数

训练过程中使用了以下超参数:

  • learning_rate: 2e-5
  • train_batch_size: 16
  • eval_batch_size: 16
  • seed: 42
  • optimizer: Adam (带权重衰减修正)
  • lr_scheduler_type: linear(线性学习率调度器)
  • num_epochs: 10

框架版本

  • Transformers 4.28.1
  • Pytorch 1.13.0
  • Datasets 2.12.0
  • Tokenizers 0.13.3

评估结果

模型在评估集上取得了以下结果:

  • Precision(精确率): 0.987843
  • Recall(召回率): 0.988498
  • F1 Score(F1 分数): 0.988170

伦理考量

本模型旨在用于分析俄语文本,应负责任地使用。用户应意识到模型预测中可能存在的偏差,并谨慎使用结果,尤其是在可能影响个人或群体的应用中。