cryptoNER

本模型是 xlm-roberta-base 在 None 数据集上微调得到的版本。其在评估集上取得了以下结果：

损失：0.0058
F1 值：0.9970

模型描述

本模型是 xlm-roberta-base 的微调版本，专门用于加密货币领域的命名实体识别（NER）。它经过优化，能够识别和分类文本中的加密货币 TICKER SYMBOL、NAME 和 blockscanner ADDRESS 等实体。

预期用途

该模型主要设计用于加密货币领域的 NER 任务，擅长在文本内容中识别和分类交易对符号、代币名称和区块浏览器地址。

局限性

当模型遇到训练数据之外的实体或加密货币领域内出现频率较低的实体时，其性能可能会欠佳。该模型还可能容易受到实体表述形式和上下文变化的影响。

训练与评估数据

模型的训练采用了多样化的数据集，包括人工生成的推文以及通过 Covalent API（https://www.covalenthq.com/docs/unified-api/）获取的 ERC20 代币元数据。利用 GPT 生成了 500 条针对加密货币领域的合成推文。Covalent API 则助力获取了超过 2 万条独特的 ERC20 代币元数据条目，丰富了模型对加密货币实体的理解和识别能力。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e-05
训练批次大小：32
评估批次大小：32
种子：42
优化器：Adam，betas=(0.9, 0.999)，epsilon=1e-08
学习率调度器类型：线性
训练轮次：6

训练结果

训练损失	轮次	步数	验证损失	F1
0.0269	1.0	750	0.0080	0.9957
0.0049	2.0	1500	0.0074	0.9960
0.0042	3.0	2250	0.0074	0.9965
0.0034	4.0	3000	0.0058	0.9971
0.0028	5.0	3750	0.0059	0.9971
0.0024	6.0	4500	0.0058	0.9970

框架版本

Transformers 4.34.1
Pytorch 2.1.0+cu118
Datasets 2.14.6
Tokenizers 0.14.1