HuggingFace镜像/SecRoBERTa
模型介绍文件和版本分析

SecRoBERTa

这是在《SecBERT: A Pretrained Language Model for Cyber Security Text》中提出的预训练模型,该模型是在网络安全文本上训练的SecRoBERTa模型。

训练语料库来源于以下论文:

  • APTnotes
  • Stucco-Data: Cyber security data sources
  • CASIE: Extracting Cybersecurity Event Information from Text
  • SemEval-2018 Task 8: Semantic Extraction from CybersecUrity REports using Natural Language Processing (SecureNLP)。

SecRoBERTa拥有其特有的wordpiece词汇表(secvocab),该词汇表是为与训练语料库实现最佳匹配而构建的。

我们训练了SecBERT和SecRoBERTa两个版本。

可用模型包括:

  • SecBERT
  • SecRoBERTa

Fill Mask

我们提出构建适用于网络安全文本的语言模型,其结果是能够改进网络安全领域的下游任务(命名实体识别、文本分类、语义理解、问答)。

首先,如下所示为Google Bert、AllenAI SciBert和我们的SecBERT中的Fill-Mask处理流程。

fill-mask-result

原始代码库可在此处找到。

下载使用量0