roberta-large-sst2

该模型是 roberta-large 在 glue 数据集上的微调版本。它在评估集上取得了以下结果：

损失：0.1400
准确率：0.9644

使用方法

from openmind import AutoTokenizer, AutoModel, is_torch_npu_available
from openmind_hub import snapshot_download
import torch
import argparse
import torch.nn.functional as F
import os
import time

# 均值池化 - 考虑注意力掩码以进行正确的平均
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # model_output的第一个元素包含所有token嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="zhouhui/roberta-large-sst2",
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
    #device = "cpu"
    start_time = time.time()
    # 我们想要获取句子嵌入的句子
    sentences = ['This is an example sentence', 'Each sentence is converted']

    # 从openmind_hub加载模型
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModel.from_pretrained(model_path).to(device)
    #model = AutoModel.from_pretrained(model_path).to("cpu")

    # 对句子进行分词
    encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to(device)
    #encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to("cpu")

    # 计算token嵌入
    with torch.no_grad():
        model_output = model(**encoded_input)

    # 执行池化
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

    # 归一化嵌入
    sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
    end_time = time.time()
    print("Sentence embeddings:")
    print(sentence_embeddings)
    time_taken = end_time - start_time
    print(f"硬件环境：{device},推理执行时间：{time_taken}秒")
   # print(f"硬件环境：cpu,推理执行时间：{time_taken}秒")

if __name__ == "__main__":
    main()

模型描述

需要更多信息

预期用途与限制

需要更多信息

训练与评估数据

需要更多信息

训练过程

训练超参数

训练过程中使用了以下超参数：

learning_rate: 3e-05
train_batch_size: 32
eval_batch_size: 32
seed: 42
distributed_type: sagemaker_data_parallel
num_devices: 8
total_train_batch_size: 256
total_eval_batch_size: 256
optimizer: Adam，betas=(0.9,0.999)，epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 4
mixed_precision_training: Native AMP

训练结果

训练损失	轮次	步数	验证损失	准确率
0.3688	1.0	264	0.1444	0.9564
0.1529	2.0	528	0.1502	0.9518
0.107	3.0	792	0.1388	0.9530
0.0666	4.0	1056	0.1400	0.9644

框架版本

Transformers 4.17.0
Pytorch 1.10.2+cu113
Datasets 1.18.4
Tokenizers 0.11.6

使用方法

from openmind import AutoTokenizer, AutoModel, is_torch_npu_available
from openmind_hub import snapshot_download
import torch
import argparse
import torch.nn.functional as F
import os
import time

# 均值池化 - 考虑注意力掩码以进行正确的平均
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # model_output的第一个元素包含所有token嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="zhouhui/roberta-large-sst2",
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
    #device = "cpu"
    start_time = time.time()
    # 我们想要获取句子嵌入的句子
    sentences = ['This is an example sentence', 'Each sentence is converted']

    # 从openmind_hub加载模型
    tokenizer = AutoTokenizer.from_pretrained(model_path)
    model = AutoModel.from_pretrained(model_path).to(device)
    #model = AutoModel.from_pretrained(model_path).to("cpu")

    # 对句子进行分词
    encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to(device)
    #encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt').to("cpu")

    # 计算token嵌入
    with torch.no_grad():
        model_output = model(**encoded_input)

    # 执行池化
    sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

    # 归一化嵌入
    sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
    end_time = time.time()
    print("Sentence embeddings:")
    print(sentence_embeddings)
    time_taken = end_time - start_time
    print(f"硬件环境：{device},推理执行时间：{time_taken}秒")
   # print(f"硬件环境：cpu,推理执行时间：{time_taken}秒")

if __name__ == "__main__":
    main()

训练过程

训练超参数

训练过程中使用了以下超参数：

learning_rate: 3e-05

train_batch_size: 32

eval_batch_size: 32

seed: 42

distributed_type: sagemaker_data_parallel

num_devices: 8

total_train_batch_size: 256

total_eval_batch_size: 256

optimizer: Adam，betas=(0.9,0.999)，epsilon=1e-08

lr_scheduler_type: linear

lr_scheduler_warmup_steps: 500

num_epochs: 4

mixed_precision_training: Native AMP

训练结果

训练损失	轮次	步数	验证损失	准确率
0.3688	1.0	264	0.1444	0.9564
0.1529	2.0	528	0.1502	0.9518
0.107	3.0	792	0.1388	0.9530
0.0666	4.0	1056	0.1400	0.9644

框架版本

Transformers 4.17.0

Pytorch 1.10.2+cu113

Datasets 1.18.4

Tokenizers 0.11.6