HuggingFace镜像/bart-large-samsum
模型介绍文件和版本分析
下载使用量0

bart-large-samsum

此模型使用微软的 Azure Machine Learning Service 进行训练。它基于 facebook/bart-large 检查点,在 samsum 语料库上进行了微调。

使用方法(推理)

from transformers import pipeline
summarizer = pipeline("summarization", model="linydub/bart-large-samsum")

input_text = '''
    Henry: Hey, is Nate coming over to watch the movie tonight?
    Kevin: Yea, he said he'll be arriving a bit later at around 7 since he gets off of work at 6. Have you taken out the garbage yet?
    Henry: Oh I forgot. I'll do that once I'm finished with my assignment for my math class.
    Kevin: Yea, you should take it out as soon as possible. And also, Nate is bringing his girlfriend.
    Henry: Nice, I'm really looking forward to seeing them again.
'''
summarizer(input_text)

在 AzureML 上进行微调

部署到 Azure 可视化

有关微调过程的更多信息(包括样本和基准):
[预览版] https://github.com/linydub/azureml-greenai-txtsum

资源使用情况

这些结果来自 Azure Monitor 指标。所有实验均在 AzureML 低优先级计算集群上运行。

关键项值
区域美国西部 2
AzureML 计算 SKUSTANDARD_ND40RS_V2
计算 SKU GPU 设备8 x NVIDIA V100 32GB(NVLink)
计算节点数1
运行时长6 分 48 秒
计算成本(专用/低优先级)2.50 美元 / 0.50 美元
平均 CPU 利用率47.9%
平均 GPU 利用率69.8%
平均 GPU 内存使用量25.71 GB
总 GPU 能源使用量370.84 kJ

*计算成本(美元)是根据运行时长、使用的计算节点数以及 SKU 的每小时价格估算得出的。最新的 SKU 定价可在 此处 找到。

碳排放

这些结果是使用 CodeCarbon 获得的。碳排放量仅根据训练运行时间估算(不包括设置和评估运行时间)。

关键项值
timestamp2021-09-16T23:54:25
duration263.2430217266083
emissions0.029715544634717518
energy_consumed0.09985062041235725
country_nameUSA
regionWashington
cloud_providerazure
cloud_regionwestus2

超参数

  • max_source_length:512
  • max_target_length:90
  • fp16:True
  • seed:1
  • per_device_train_batch_size:16
  • per_device_eval_batch_size:16
  • gradient_accumulation_steps:1
  • learning_rate:5e-5
  • num_train_epochs:3.0
  • weight_decay:0.1

结果

ROUGE 指标分数
eval_rouge155.0234
eval_rouge229.6005
eval_rougeL44.914
eval_rougeLsum50.464
predict_rouge153.4345
predict_rouge228.7445
predict_rougeL44.1848
predict_rougeLsum49.1874
指标数值
epoch3.0
eval_gen_len30.6027
eval_loss1.4327096939086914
eval_runtime22.9127
eval_samples818
eval_samples_per_second35.701
eval_steps_per_second0.306
predict_gen_len30.4835
predict_loss1.4501988887786865
predict_runtime26.0269
predict_samples819
predict_samples_per_second31.467
predict_steps_per_second0.269
train_loss1.2014821151207233
train_runtime263.3678
train_samples14732
train_samples_per_second167.811
train_steps_per_second1.321
total_steps348
total_flops4.26008990669865e+16