本模型是 xlm-roberta-base 在 None 数据集上微调得到的版本。 其在评估集上取得了以下结果:
本模型是 xlm-roberta-base 的微调版本,专门用于加密货币领域的命名实体识别(NER)。它经过优化,能够识别和分类文本中的加密货币 TICKER SYMBOL、NAME 和 blockscanner ADDRESS 等实体。
该模型主要设计用于加密货币领域的 NER 任务,擅长在文本内容中识别和分类交易对符号、代币名称和区块浏览器地址。
当模型遇到训练数据之外的实体或加密货币领域内出现频率较低的实体时,其性能可能会欠佳。该模型还可能容易受到实体表述形式和上下文变化的影响。
模型的训练采用了多样化的数据集,包括人工生成的推文以及通过 Covalent API(https://www.covalenthq.com/docs/unified-api/)获取的 ERC20 代币元数据。利用 GPT 生成了 500 条针对加密货币领域的合成推文。Covalent API 则助力获取了超过 2 万条独特的 ERC20 代币元数据条目,丰富了模型对加密货币实体的理解和识别能力。
训练过程中使用了以下超参数:
| 训练损失 | 轮次 | 步数 | 验证损失 | F1 |
|---|---|---|---|---|
| 0.0269 | 1.0 | 750 | 0.0080 | 0.9957 |
| 0.0049 | 2.0 | 1500 | 0.0074 | 0.9960 |
| 0.0042 | 3.0 | 2250 | 0.0074 | 0.9965 |
| 0.0034 | 4.0 | 3000 | 0.0058 | 0.9971 |
| 0.0028 | 5.0 | 3750 | 0.0059 | 0.9971 |
| 0.0024 | 6.0 | 4500 | 0.0058 | 0.9970 |