answer_logs
该模型是 [gpt2] 在约 8000 组由 PubMed Central 开放获取研究论文生成的问答对上进行微调得到的版本。
模型描述
微调后的 gpt2
预期用途与局限性
需更多信息
训练与评估数据
需更多信息
训练过程
训练超参数
训练过程中使用了以下超参数:
- learning_rate: 5e-05
- train_batch_size: 2
- eval_batch_size: 8
- seed: 42
- gradient_accumulation_steps: 8
- total_train_batch_size: 16
- optimizer: Adam,betas=(0.9,0.999),epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 13.0
训练结果
框架版本
- Transformers 4.40.2
- Pytorch 2.2.1+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1