HuggingFace镜像/KoELECTRA-small-v3-modu-ner
模型介绍文件和版本分析
下载使用量0

KoELECTRA-small-v3-modu-ner

该模型是在未知数据集上对 monologg/koelectra-small-v3-discriminator 进行微调的版本。 其在评估集上取得了以下结果:

  • 损失值(Loss):0.1431
  • 精确率(Precision):0.8232
  • 召回率(Recall):0.8449
  • F1 值(F1):0.8339
  • 准确率(Accuracy):0.9628

模型说明

标签系统:BIO 系统

  • B-(begin):实体名称开始时
  • I-(inside):标记处于实体名称中间时
  • O(outside):标记不属于实体名称时

遵循韩国信息通信技术协会(TTA)大分类标准的 15 种标签集

分类标记定义
ARTIFACTSAF人类创造的人工制品,包括文物、建筑物、乐器、道路、武器、交通工具、作品名、工业产品名等
ANIMALAM除人类以外的动物
CIVILIZATIONCV文明/文化
DATEDT期间及季节、时期/时代
EVENTEV特定事件/事故/活动名称
STUDY_FIELDFD学术领域、学派及流派
LOCATIONLC包含地区/场所与地形/地理名称等
MATERIALMT元素及金属、岩石/宝石、化学物质
ORGANIZATIONOG机构及团体名称
PERSONPS人名及人物的别名(包括相似人物名称)
PLANTPT花/树、陆地植物、海草类、蘑菇类、苔藓类
QUANTITYQT数量/分量、顺序/序列、由数词构成的表达
TIMETI时钟上显示的时/时刻、时间范围
TERMTM除其他实体名称中定义的详细实体名称之外的实体名称
THEORYTR特定理论、法则原理等

预期用途与局限性

使用方法

您可以将此模型与 Transformers 的 pipeline 结合用于命名实体识别(NER)。

from openmind import pipeline

example = "서울역으로 안내해줘."
pipe = pipeline("token-classification", model=args.model_name_or_path, framework="pt",device=device)

sentence_vecs = pipe(example)
print(sentence_vecs)

训练与评估数据

实体识别(NER)模型训练数据集

  • 文化体育观光部 > 国立国语院 > 모두의 말뭉치 > 实体名分析语料库 2021

训练过程

训练超参数

训练过程中使用了以下超参数:

  • 学习率:5e-05
  • 训练批次大小:64
  • 评估批次大小:64
  • 随机种子:42
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • 学习率调度器类型:linear
  • 学习率调度器预热步数:15151
  • 训练轮次:20
  • 混合精度训练:Native AMP

训练结果

训练损失轮次步数验证损失精确率召回率F1准确率
无日志1.037880.39780.59860.54710.57170.9087
无日志2.075760.23190.69860.69530.69690.9345
无日志3.0113640.18380.73630.76120.74860.9444
无日志4.0151520.16100.77620.77450.77540.9509
无日志5.0189400.14750.78620.80110.79360.9545
无日志6.0227280.14170.78570.81810.80160.9563
无日志7.0265160.13660.80220.81960.81080.9584
无日志8.0303040.13460.80930.82360.81640.9596
无日志9.0340920.13280.80850.82990.81900.9602
无日志10.0378800.13320.81100.83680.82370.9608
无日志11.0416680.13230.81570.83470.82510.9612
无日志12.0454560.13530.81180.84020.82580.9611
无日志13.0492440.13700.81520.84160.82820.9616
无日志14.0530320.13680.81640.84150.82870.9616
无日志15.0568200.13780.81870.84380.83100.9621
无日志16.0606080.13890.82170.84380.83260.9626
无日志17.0643960.13800.82660.84260.83450.9631
无日志18.0681840.14280.82160.84450.83290.9625
无日志19.0719720.14310.82320.84550.83420.9628
0.171220.0757600.14310.82320.84490.83390.9628