该模型是 bert-base-multilingual-cased 的微调版本,适用于俄语文本的命名实体识别(NER)。它能够使用 BIOLU 标记格式识别多种实体类型,例如人名的名字、父称、姓氏,以及城市、地区等。
该模型旨在识别俄语文本中的命名实体。它可用于信息提取、内容分析以及下游自然语言处理任务的文本预处理等工作。
以下是使用该模型的简单示例:
from transformers import pipeline
ner_pipe = pipeline("ner", model="Gherman/bert-base-NER-Russian")
text = "Меня зовут Сергей Иванович из Москвы."
results = ner_pipe(text)
for result in results:
print(f"Word: {result['word']}, Entity: {result['entity']}, Score: {result['score']:.4f}")该模型是在 AlexKly 的 Detailed-NER-Dataset-RU 上训练的。这个数据集非常不错,建议查看!
数据集采用 BIOLU 格式进行标注,其中:
数据集中包含以下实体类型:
地点(LOC)标签:
人物(PER)标签:
例如,完整标签可能是“B-CITY”(表示城市名称的起始 token),或者“U-COUNTRY”(表示单个 token 的国家名称)。
该模型是基于 bert-base-multilingual-cased checkpoint,使用 Hugging Face Transformers 库进行微调的。
训练过程中使用了以下超参数:
模型在评估集上取得了以下结果:
本模型旨在用于分析俄语文本,应负责任地使用。用户应意识到模型预测中可能存在的偏差,并谨慎使用结果,尤其是在可能影响个人或群体的应用中。