HuggingFace镜像/frozen_news_classifier_ft
模型介绍文件和版本分析

模型说明

该模型是 sentence-transformers/LaBSE 在我的 新闻数据集 上的微调版本。 此模型的目标是创建一个用于对俄语新闻进行分类的通用模型,同时保留基础 LaBSE 模型在单一向量空间中生成多语言文本嵌入的能力。 需要注意的是,该模型允许对 LaBSE 支持的其他语言的新闻文章进行分类,但其分类质量将低于俄语新闻文本。 训练用的新闻数据集是过去五年近期新闻的均衡样本。

它在评估集上取得了以下结果:

  • 损失(Loss):0.7314
  • 准确率(Accuracy):0.7793
  • F1 值(F1):0.7753
  • 精确率(Precision):0.7785
  • 召回率(Recall):0.7793

使用方法


from openmind import omdatasets, pipeline, is_torch_npu_available, AutoTokenizer
import argparse
import time
def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="zhouhui/frozen_news_classifier_ft",
    )
    args = parser.parse_args()
    return args

args = parse_args()
model_path = args.model_name_or_path

if is_torch_npu_available():
    device = "npu:0"
else:
    device = "cpu"
#device = "cpu"
start_time = time.time()
unmasker = pipeline('text-classification', model=model_path,device=device)
print(unmasker("The man worked as a <mask>."))
end_time = time.time()
print(f"硬件环境:{device},推理执行时间:{end_time - start_time}秒")

预期用途与局限性

与我专门用于解决新闻分类问题的模型any-news-classifier相比,本模型的各项指标均有明显下降。

训练超参数

训练过程中使用了以下超参数:

  • learning_rate: 1e-05
  • train_batch_size: 16
  • eval_batch_size: 16
  • seed: 42
  • optimizer: Adam,betas=(0.9,0.999),epsilon=1e-08
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 10

训练结果

训练损失轮次步数验证损失准确率F1值精确率召回率
0.84221.035960.81040.76810.76320.76690.7681
0.79232.071920.77380.77110.76660.77000.7711
0.75973.0107880.74850.77540.77160.77410.7754
0.75644.0143840.73140.77930.77530.77850.7793

框架版本

  • Transformers 4.42.4
  • Pytorch 2.4.0+cu121
  • Datasets 2.21.0
  • Tokenizers 0.19.1
下载使用量0