HuggingFace镜像/Italian_NER_XXL
模型介绍文件和版本分析
下载使用量0

Italian_NER_XXL

模型概述

这是我们在modelers上发布的人工智能模型的初始版本。需要注意的是,此版本仅仅是一个开始;该模型将随着时间的推移不断改进。目前,该模型的准确率为79%,但我们计划通过每月更新定期提高这一数值。

模型在意大利的独特性

我们自豪地宣布,我们的模型是目前意大利唯一能够识别多达52种不同类别的模型。这一能力使其在意大利现有的其他模型中脱颖而出,在实体识别方面提供了前所未有的多功能性和广度。

技术与创新

该模型基于BERT架构,这是自然语言处理(NLP)领域最先进的技术之一。其训练采用了最先进的技术,确保了高水平的准确性和效率。这一技术选择确保了对自然语言的深入且复杂的理解。

已识别的类别

该模型能够识别以下类别:

  • INDIRIZZO:识别物理地址。
  • VALUTA:表示货币。
  • CVV:信用卡安全码。
  • NUMERO_CONTO:银行账户号码。
  • BIC:银行识别码(Bank Identifier Code)。
  • IBAN:国际银行账户号码。
  • STATO:识别国家或地区。
  • NOME:指个人的名字。
  • COGNOME:指个人的姓氏。
  • CODICE_POSTALE:地理区域的邮政编码。
  • IP:网络中设备的IP地址。
  • ORARIO:指特定的时间。
  • URL:网页地址(Uniform Resource Locator)。
  • LUOGO:识别地理位置。
  • IMPORTO:指一笔金额。
  • EMAIL:电子邮件地址。
  • PASSWORD:用于访问受保护系统的密码。
  • NUMERO_CARTA:信用卡或借记卡号码。
  • TARGA_VEICOLO:车辆牌照号码。
  • DATA_NASCITA:个人的出生日期。
  • DATA_MORTE:个人的死亡日期。
  • RAGIONE_SOCIALE:公司或商业实体的法定名称。
  • ETA:个人的年龄。
  • DATA:指通用日期。
  • PROFESSIONE:个人的职业或工作。
  • PIN:个人识别号码。
  • NUMERO_TELEFONO:电话号码。
  • FOGLIO:指文档的页面。
  • PARTICELLA:指地籍册中的地块。
  • CARTELLA_CLINICA:患者的医疗文档。
  • MALATTIA:识别疾病或医疗状况。
  • MEDICINA:指药物或医疗治疗。
  • CODICE_FISCALE:个人或公司的税号。
  • NUMERO_DOCUMENTO:官方文件的编号。
  • STORIA_CLINICA:患者医疗状况的记录。
  • AVV_NOTAIO:识别律师或公证人。
  • P_IVA:公司或专业人士的增值税号。
  • LEGGE:指特定的法律。
  • TASSO_MUTUO:抵押贷款的利率。
  • N_SENTENZA:法律判决的编号。
  • MAPPALE:指地籍图。
  • SUBALTERNO:指地籍册中的子地块。
  • REGIME_PATRIMONIALE:法律领域的财产状况。
  • STATO_CIVILE:个人的婚姻状况。
  • BANCA:识别银行或信贷机构。
  • BRAND:商业品牌或商标。
  • NUM_ASSEGNO_BANCARIO:银行汇票的编号。
  • IMEI:移动设备的国际识别号码。
  • N_LICENZA:特定许可证的编号。
  • IPV6_1:互联网协议版本6地址。
  • MAC:网络设备的MAC地址。
  • USER_AGENT:识别用于访问网络的软件。
  • TRIBUNALE:识别特定的法院。
  • STRENGTH:指药物的强度或浓度。
  • FREQUENZA:指医疗治疗的频率。
  • DURATION:事件或治疗的持续时间。
  • DOSAGGIO:要服用的药物剂量。
  • FORM:药物的剂型,例如片剂。

如何与npu配合使用

要使用此模型:


from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
from openmind import is_torch_npu_available
from openmind_hub import snapshot_download
import argparse
import torch
import torch_npu


def parse_args():
        parser = argparse.ArgumentParser()
        parser.add_argument( "--model_name_or_path", type=str, help="Path to model", default=None)
        args = parser.parse_args()
        return args
args = parse_args()
if args.model_name_or_path:
        model_path = args.model_name_or_path
else:
        model_path = snapshot_download(
                "CICC/Italian_NER_XXL",
                revision="main",
                resume_download=True,
                ignore_patterns=["*.h5", "*.ot", "      *.msgpack"]
        )


#model_path = args.model_name_or_path
device = torch.device('npu:0') if is_torch_npu_available() else torch.device('cpu')

tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForTokenClassification.from_pretrained(model_path, ignore_mismatched_sizes=True).to(device)
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = """Il commendatore Gianluigi Alberico De Laurentis-Ponti, con residenza legale in Corso Imperatrice 67,  Torino, avente codice fiscale DLNGGL60B01L219P, è amministratore delegato della "De Laurentis Advanced Engineering Group S.p.A.",  che si trova in Piazza Affari 32, Milano (MI); con una partita IVA di 09876543210, la società è stata recentemente incaricata  di sviluppare una nuova linea di componenti aerospaziali per il progetto internazionale di esplorazione di Marte."""
ner_results = nlp(example)
print(ner_results)


结论

本模型的主要目标是对各类实体进行高效且精准的识别,突破传统模型的局限。作为意大利境内唯一能够识别如此多实体的模型,我们相信它将成为众多应用领域的宝贵工具。对模型进行持续优化和改进是我们的首要任务,以确保其始终保持卓越性能。

贡献与联系方式

如果您有兴趣为本项目贡献力量、提出改进建议,或需要针对特定场景的命名实体识别器,欢迎随时与我们联系。您的意见和合作将显著提升模型的性能和应用范围。如需咨询或讨论潜在贡献,请联系Michele Montebovi,邮箱地址:montebovi.michele@gmail.com。我们致力于不断改进和扩展Italian_NER_XXL模型的功能,非常感谢您的支持与参与。