俄语命名实体识别模型

模型说明

该模型是 bert-base-multilingual-cased 的微调版本，适用于俄语文本的命名实体识别（NER）。它能够使用 BIOLU 标记格式识别多种实体类型，例如人名的名字、父称、姓氏，以及城市、地区等。

预期用途和局限性

该模型旨在识别俄语文本中的命名实体。它可用于信息提取、内容分析以及下游自然语言处理任务的文本预处理等工作。

使用方法

以下是使用该模型的简单示例：

from transformers import pipeline

ner_pipe = pipeline("ner", model="Gherman/bert-base-NER-Russian")

text = "Меня зовут Сергей Иванович из Москвы."
results = ner_pipe(text)

for result in results:
    print(f"Word: {result['word']}, Entity: {result['entity']}, Score: {result['score']:.4f}")

局限性与偏差

模型性能可能会因输入文本的领域和风格而有所不同。
对于训练期间未见过的罕见或复杂实体名称，模型可能难以识别。
模型可能会表现出训练数据中存在的偏差。

训练数据

该模型是在 AlexKly 的 Detailed-NER-Dataset-RU 上训练的。这个数据集非常不错，建议查看！

标签信息

数据集采用 BIOLU 格式进行标注，其中：

B：实体的起始 token
I：实体的内部 token
O：其他（非实体）token
L：实体的最后一个 token
U：单个 token 的实体（单元 token）

数据集中包含以下实体类型：

地点（LOC）标签：

COUNTRY（国家）
REGION（地区）
CITY（城市）
DISTRICT（区）
STREET（街道）
HOUSE（房屋）

人物（PER）标签：

LAST_NAME（姓氏）
FIRST_NAME（名字）
MIDDLE_NAME（中间名）

例如，完整标签可能是“B-CITY”（表示城市名称的起始 token），或者“U-COUNTRY”（表示单个 token 的国家名称）。

训练过程

该模型是基于 bert-base-multilingual-cased checkpoint，使用 Hugging Face Transformers 库进行微调的。

训练超参数

训练过程中使用了以下超参数：

learning_rate: 2e-5
train_batch_size: 16
eval_batch_size: 16
seed: 42
optimizer: Adam （带权重衰减修正）
lr_scheduler_type: linear（线性学习率调度器）
num_epochs: 10

框架版本

Transformers 4.28.1
Pytorch 1.13.0
Datasets 2.12.0
Tokenizers 0.13.3

评估结果

模型在评估集上取得了以下结果：

Precision（精确率）: 0.987843
Recall（召回率）: 0.988498
F1 Score（F1 分数）: 0.988170

伦理考量

本模型旨在用于分析俄语文本，应负责任地使用。用户应意识到模型预测中可能存在的偏差，并谨慎使用结果，尤其是在可能影响个人或群体的应用中。