HuggingFace镜像/gpt-fr-cased-base
模型介绍文件和版本分析
下载使用量0

Logo

模型说明

GPT-fr 🇫🇷 是一个针对法语的GPT模型,由Quantmetry和Laboratoire de Linguistique Formelle (LLF)联合开发。我们在一个规模庞大且内容多样的法语语料库上对该模型进行了训练。我们发布了以下配置的权重:

模型名称层数注意力头数嵌入维度总参数数量
gpt-fr-cased-small12127681.24亿
gpt-fr-cased-base24141,79210.17亿

预期用途与局限性

该模型可用于语言生成任务。此外,许多任务可以被格式化为直接生成自然语言输出的形式。这种配置可应用于自动摘要或问答等任务。我们希望我们的模型能够用于学术和工业应用。

使用方法

该模型可通过出色的 🤗 Transformers 库来使用。我们借鉴了Shoeybi et al., (2019)的研究成果,并对模型进行了校准,以便在预训练或微调期间,模型能够在单块NVIDIA V100 32GB GPU上运行。

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# Load pretrained model and tokenizer
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# Generate a sample of text
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

局限性与偏差

大型语言模型往往会复制预训练数据集中存在的偏差,例如性别歧视或生成冒犯性内容。

为了减少接触过多露骨内容的可能性,我们事先对来源进行了精心筛选。这一过程——在我们的论文中有详细说明——旨在限制模型生成冒犯性内容,同时避免进行人工的、主观的过滤。

然而,数据中包含的一些社会偏见可能会在模型中得到反映。例如,在性别平等方面,我们生成了如下句子序列:“Ma femme/Mon mari vient d'obtenir un nouveau poste en tant _______”。我们采用了top-k随机采样策略(k=50),并在遇到第一个标点符号时停止采样。 为妻子生成的职位是“que professeur de français.”,而为丈夫生成的职位是“que chef de projet.”。我们非常感谢您的反馈,以便更好地从定性和定量角度评估此类影响。

训练数据

我们创建了一个专用语料库来训练我们的生成模型。实际上,该模型使用1024的固定长度上下文窗口,因此需要长文档进行训练。我们整合了现有的语料库:Wikipedia、OpenSubtitle(Tiedemann, 2012)、Gutenberg 和 Common Crawl(Li et al., 2019)。这些语料库经过过滤并分割成句子。然后,将连续的句子进行拼接,每个文档的长度限制在1024个token以内。

训练过程

我们在法国国家科学研究中心(CNRS)的新超级计算机Jean Zay上对模型进行了预训练。训练在Tesla V-100硬件(热设计功耗300W)上进行,总计算时间为140小时。训练分布在4个计算节点上,每个节点配备8块GPU。我们采用数据并行的方式,将每个微批次分配到各个计算单元。使用Lacoste et al., (2019)提出的机器学习影响计算器,我们估计训练过程的总碳排放量为580.61千克二氧化碳当量。

评估结果

我们为GPT-fr配备了一个专门针对法语的语言模型评估基准。 与英语的WikiText基准一致,我们从维基百科上经过验证的优质和特色文章集中收集了超过7000万个标记。该模型在测试集上的零样本困惑度达到12.9。

BibTeX条目和引用信息

除了由HuggingFace transformers库托管的模型外,我们还维护了一个git仓库。 如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
  AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

参考文献

Jörg Tiedemann:OPUS中的平行语料、工具及接口。LREC 2012:2214-2218
Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad:首届机器翻译鲁棒性共享任务成果。WMT (2) 2019:91-102
Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro:Megatron-LM:使用模型并行训练数十亿参数语言模型。CoRR abs/1909.08053 (2019)
Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres:量化机器学习的碳排放。CoRR abs/1910.09700 (2019)