这是在《SecBERT: A Pretrained Language Model for Cyber Security Text》中提出的预训练模型,该模型是在网络安全文本上训练的SecRoBERTa模型。
训练语料库来源于以下论文:
SecRoBERTa拥有其特有的wordpiece词汇表(secvocab),该词汇表是为与训练语料库实现最佳匹配而构建的。
我们训练了SecBERT和SecRoBERTa两个版本。
可用模型包括:
我们提出构建适用于网络安全文本的语言模型,其结果是能够改进网络安全领域的下游任务(命名实体识别、文本分类、语义理解、问答)。
首先,如下所示为Google Bert、AllenAI SciBert和我们的SecBERT中的Fill-Mask处理流程。

原始代码库可在此处找到。