该模型是在未知数据集上对 monologg/koelectra-small-v3-discriminator 进行微调的版本。 其在评估集上取得了以下结果:
标签系统:BIO 系统
遵循韩国信息通信技术协会(TTA)大分类标准的 15 种标签集
| 分类 | 标记 | 定义 |
|---|---|---|
| ARTIFACTS | AF | 人类创造的人工制品,包括文物、建筑物、乐器、道路、武器、交通工具、作品名、工业产品名等 |
| ANIMAL | AM | 除人类以外的动物 |
| CIVILIZATION | CV | 文明/文化 |
| DATE | DT | 期间及季节、时期/时代 |
| EVENT | EV | 特定事件/事故/活动名称 |
| STUDY_FIELD | FD | 学术领域、学派及流派 |
| LOCATION | LC | 包含地区/场所与地形/地理名称等 |
| MATERIAL | MT | 元素及金属、岩石/宝石、化学物质 |
| ORGANIZATION | OG | 机构及团体名称 |
| PERSON | PS | 人名及人物的别名(包括相似人物名称) |
| PLANT | PT | 花/树、陆地植物、海草类、蘑菇类、苔藓类 |
| QUANTITY | QT | 数量/分量、顺序/序列、由数词构成的表达 |
| TIME | TI | 时钟上显示的时/时刻、时间范围 |
| TERM | TM | 除其他实体名称中定义的详细实体名称之外的实体名称 |
| THEORY | TR | 特定理论、法则原理等 |
您可以将此模型与 Transformers 的 pipeline 结合用于命名实体识别(NER)。
from openmind import pipeline
example = "서울역으로 안내해줘."
pipe = pipeline("token-classification", model=args.model_name_or_path, framework="pt",device=device)
sentence_vecs = pipe(example)
print(sentence_vecs)实体识别(NER)模型训练数据集
训练过程中使用了以下超参数:
| 训练损失 | 轮次 | 步数 | 验证损失 | 精确率 | 召回率 | F1 | 准确率 |
|---|---|---|---|---|---|---|---|
| 无日志 | 1.0 | 3788 | 0.3978 | 0.5986 | 0.5471 | 0.5717 | 0.9087 |
| 无日志 | 2.0 | 7576 | 0.2319 | 0.6986 | 0.6953 | 0.6969 | 0.9345 |
| 无日志 | 3.0 | 11364 | 0.1838 | 0.7363 | 0.7612 | 0.7486 | 0.9444 |
| 无日志 | 4.0 | 15152 | 0.1610 | 0.7762 | 0.7745 | 0.7754 | 0.9509 |
| 无日志 | 5.0 | 18940 | 0.1475 | 0.7862 | 0.8011 | 0.7936 | 0.9545 |
| 无日志 | 6.0 | 22728 | 0.1417 | 0.7857 | 0.8181 | 0.8016 | 0.9563 |
| 无日志 | 7.0 | 26516 | 0.1366 | 0.8022 | 0.8196 | 0.8108 | 0.9584 |
| 无日志 | 8.0 | 30304 | 0.1346 | 0.8093 | 0.8236 | 0.8164 | 0.9596 |
| 无日志 | 9.0 | 34092 | 0.1328 | 0.8085 | 0.8299 | 0.8190 | 0.9602 |
| 无日志 | 10.0 | 37880 | 0.1332 | 0.8110 | 0.8368 | 0.8237 | 0.9608 |
| 无日志 | 11.0 | 41668 | 0.1323 | 0.8157 | 0.8347 | 0.8251 | 0.9612 |
| 无日志 | 12.0 | 45456 | 0.1353 | 0.8118 | 0.8402 | 0.8258 | 0.9611 |
| 无日志 | 13.0 | 49244 | 0.1370 | 0.8152 | 0.8416 | 0.8282 | 0.9616 |
| 无日志 | 14.0 | 53032 | 0.1368 | 0.8164 | 0.8415 | 0.8287 | 0.9616 |
| 无日志 | 15.0 | 56820 | 0.1378 | 0.8187 | 0.8438 | 0.8310 | 0.9621 |
| 无日志 | 16.0 | 60608 | 0.1389 | 0.8217 | 0.8438 | 0.8326 | 0.9626 |
| 无日志 | 17.0 | 64396 | 0.1380 | 0.8266 | 0.8426 | 0.8345 | 0.9631 |
| 无日志 | 18.0 | 68184 | 0.1428 | 0.8216 | 0.8445 | 0.8329 | 0.9625 |
| 无日志 | 19.0 | 71972 | 0.1431 | 0.8232 | 0.8455 | 0.8342 | 0.9628 |
| 0.1712 | 20.0 | 75760 | 0.1431 | 0.8232 | 0.8449 | 0.8339 | 0.9628 |