GPT-2 Base Thai 是一个基于 OpenAI GPT-2 模型的因果语言模型。它在 OSCAR 数据集,特别是 unshuffled_deduplicated_th 子集上进行了训练。该模型从零开始训练,最终达到了 1.708 的评估损失和 5.516 的评估困惑度。
此模型使用 HuggingFace 的 Flax 框架进行训练,并且是 JAX/Flax 社区周活动的一部分。所有训练均在由 Google Cloud 团队赞助的 TPUv3-8 虚拟机上完成。
| 模型 | 参数数量 | 架构 | 训练/验证数据(文本) |
|---|---|---|---|
gpt2-base-thai | 124M | GPT-2 | unshuffled_deduplicated_th 数据集 |
该模型训练了 3 个 epoch,以下是训练结束时的最终结果。
| 训练损失 | 验证损失 | 验证 PPL | 总时间 |
|---|---|---|---|
| 1.638 | 1.708 | 5.516 | 6:12:34 |
from openmind import pipeline
pretrained_name = "SY_AICC/gpt2-base-thai"
nlp = pipeline(
"text-generation",
model=pretrained_name,
tokenizer=pretrained_name
)
nlp("สวัสดีตอนเช้า")from openmind import AutoTokenizer, AutoModel
pretrained_name = "SY_AICC/gpt2-base-thai"
model = AutoModel.from_pretrained(pretrained_name)
tokenizer = AutoTokenizer.from_pretrained(pretrained_name)
prompt = "สวัสดีตอนเช้า"
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)