HuggingFace镜像/toxic-comment-model
模型介绍文件和版本分析
下载使用量0

模型说明 该模型是 DistilBERT 模型的微调版本,用于对有毒评论进行分类。

使用方法 您可以通过以下代码使用该模型:

from transformers import AutoModelForSequenceClassification, AutoTokenizer, TextClassificationPipeline

model_path = "martin-ha/toxic-comment-model" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForSequenceClassification.from_pretrained(model_path)

pipeline = TextClassificationPipeline(model=model, tokenizer=tokenizer) print(pipeline('This is a test text.'))

局限性与偏差 本模型旨在用于对在线有毒评论进行分类。然而,该模型存在一个局限性,即对于某些提及特定身份亚群(如穆斯林)的评论,其表现欠佳。下表展示了针对不同身份群体的评估分数。您可以在此处了解这些指标的具体含义。但总体而言,这些指标反映了模型在特定群体上的表现优劣,数值越大表示表现越好。

subgroup subgroup_size subgroup_auc bpsn_auc bnsp_auc muslim 108 0.689 0.811 0.88 jewish 40 0.749 0.86 0.825 homosexual_gay_or_lesbian 56 0.795 0.706 0.972 black 84 0.866 0.758 0.975 white 112 0.876 0.784 0.97 female 306 0.898 0.887 0.948 christian 231 0.904 0.917 0.93 male 225 0.922 0.862 0.967 psychiatric_or_mental_illness 26 0.924 0.907 0.95

上表显示,该模型在穆斯林和犹太人群体上的表现较差。实际上,如果将句子“Muslims are people who follow or practice Islam, an Abrahamic monotheistic religion.”输入模型,模型会将其归类为有毒评论。请留意此类潜在偏差。

训练数据 训练数据来源于此 Kaggle 竞赛。我们使用了 train.csv 数据中的 10% 来训练模型。

训练过程 您可以查看此文档和代码,了解我们如何训练模型。在 P-100 GPU 上,训练大约需要 3 小时。

评估结果 在包含 10000 行数据的预留测试集上,该模型达到了 94% 的准确率和 0.59 的 F1 分数。