Italian_NER_XXL

模型概述

这是我们在modelers上发布的人工智能模型的初始版本。需要注意的是，此版本仅仅是一个开始；该模型将随着时间的推移不断改进。目前，该模型的准确率为79%，但我们计划通过每月更新定期提高这一数值。

模型在意大利的独特性

我们自豪地宣布，我们的模型是目前意大利唯一能够识别多达52种不同类别的模型。这一能力使其在意大利现有的其他模型中脱颖而出，在实体识别方面提供了前所未有的多功能性和广度。

技术与创新

该模型基于BERT架构，这是自然语言处理（NLP）领域最先进的技术之一。其训练采用了最先进的技术，确保了高水平的准确性和效率。这一技术选择确保了对自然语言的深入且复杂的理解。

已识别的类别

该模型能够识别以下类别：

INDIRIZZO：识别物理地址。
VALUTA：表示货币。
CVV：信用卡安全码。
NUMERO_CONTO：银行账户号码。
BIC：银行识别码（Bank Identifier Code）。
IBAN：国际银行账户号码。
STATO：识别国家或地区。
NOME：指个人的名字。
COGNOME：指个人的姓氏。
CODICE_POSTALE：地理区域的邮政编码。
IP：网络中设备的IP地址。
ORARIO：指特定的时间。
URL：网页地址（Uniform Resource Locator）。
LUOGO：识别地理位置。
IMPORTO：指一笔金额。
EMAIL：电子邮件地址。
PASSWORD：用于访问受保护系统的密码。
NUMERO_CARTA：信用卡或借记卡号码。
TARGA_VEICOLO：车辆牌照号码。
DATA_NASCITA：个人的出生日期。
DATA_MORTE：个人的死亡日期。
RAGIONE_SOCIALE：公司或商业实体的法定名称。
ETA：个人的年龄。
DATA：指通用日期。
PROFESSIONE：个人的职业或工作。
PIN：个人识别号码。
NUMERO_TELEFONO：电话号码。
FOGLIO：指文档的页面。
PARTICELLA：指地籍册中的地块。
CARTELLA_CLINICA：患者的医疗文档。
MALATTIA：识别疾病或医疗状况。
MEDICINA：指药物或医疗治疗。
CODICE_FISCALE：个人或公司的税号。
NUMERO_DOCUMENTO：官方文件的编号。
STORIA_CLINICA：患者医疗状况的记录。
AVV_NOTAIO：识别律师或公证人。
P_IVA：公司或专业人士的增值税号。
LEGGE：指特定的法律。
TASSO_MUTUO：抵押贷款的利率。
N_SENTENZA：法律判决的编号。
MAPPALE：指地籍图。
SUBALTERNO：指地籍册中的子地块。
REGIME_PATRIMONIALE：法律领域的财产状况。
STATO_CIVILE：个人的婚姻状况。
BANCA：识别银行或信贷机构。
BRAND：商业品牌或商标。
NUM_ASSEGNO_BANCARIO：银行汇票的编号。
IMEI：移动设备的国际识别号码。
N_LICENZA：特定许可证的编号。
IPV6_1：互联网协议版本6地址。
MAC：网络设备的MAC地址。
USER_AGENT：识别用于访问网络的软件。
TRIBUNALE：识别特定的法院。
STRENGTH：指药物的强度或浓度。
FREQUENZA：指医疗治疗的频率。
DURATION：事件或治疗的持续时间。
DOSAGGIO：要服用的药物剂量。
FORM：药物的剂型，例如片剂。

如何与npu配合使用

要使用此模型：


from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
from openmind import is_torch_npu_available
from openmind_hub import snapshot_download
import argparse
import torch
import torch_npu


def parse_args():
        parser = argparse.ArgumentParser()
        parser.add_argument( "--model_name_or_path", type=str, help="Path to model", default=None)
        args = parser.parse_args()
        return args
args = parse_args()
if args.model_name_or_path:
        model_path = args.model_name_or_path
else:
        model_path = snapshot_download(
                "CICC/Italian_NER_XXL",
                revision="main",
                resume_download=True,
                ignore_patterns=["*.h5", "*.ot", "      *.msgpack"]
        )


#model_path = args.model_name_or_path
device = torch.device('npu:0') if is_torch_npu_available() else torch.device('cpu')

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForTokenClassification.from_pretrained(model_path, ignore_mismatched_sizes=True).to(device)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67,  Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering Group S.p.A.",  che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata recentemente incaricata  di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale di esplorazione di Marte."""
ner_results = nlp(example)
print(ner_results)

结论

本模型的主要目标是对各类实体进行高效且精准的识别，突破传统模型的局限。作为意大利境内唯一能够识别如此多实体的模型，我们相信它将成为众多应用领域的宝贵工具。对模型进行持续优化和改进是我们的首要任务，以确保其始终保持卓越性能。

贡献与联系方式

如果您有兴趣为本项目贡献力量、提出改进建议，或需要针对特定场景的命名实体识别器，欢迎随时与我们联系。您的意见和合作将显著提升模型的性能和应用范围。如需咨询或讨论潜在贡献，请联系Michele Montebovi，邮箱地址：montebovi.michele@gmail.com。我们致力于不断改进和扩展Italian_NER_XXL模型的功能，非常感谢您的支持与参与。