该模型是 [distilroberta-base] 在 financial_phrasebank 数据集上的微调版本。 其在评估集上取得了以下结果:
本模型是 [RoBERTa-base model] 的蒸馏版本。它遵循与 [DistilBERT] 相同的训练流程。 蒸馏过程的代码可在以下位置找到: 该模型区分大小写:例如,“English”和“english”会被视为不同。
该模型具有 6 层、768 维隐藏状态和 12 个注意力头,总参数为 8200 万(相比之下,RoBERTa-base 为 1.25 亿参数)。 平均而言,DistilRoBERTa 的速度是 Roberta-base 的两倍。
来自财经新闻句子的极性情感数据集。该数据集包含 4840 个来自英语财经新闻的句子,并按情感进行分类。数据集按 5-8 名注释者的一致率进行划分。
训练过程中使用了以下超参数:
| 训练损失 | 轮次 | 步数 | 验证损失 | 准确率 |
|---|---|---|---|---|
| 无记录 | 1.0 | 255 | 0.1670 | 0.9646 |
| 0.209 | 2.0 | 510 | 0.2290 | 0.9558 |
| 0.209 | 3.0 | 765 | 0.2044 | 0.9558 |
| 0.0326 | 4.0 | 1020 | 0.1116 | 0.9823 |
| 0.0326 | 5.0 | 1275 | 0.1127 | 0.9779 |