我们推出了 Latxa,这是一系列针对巴斯克语的大型语言模型,参数规模从 70 亿到 700 亿不等。Latxa 基于 Llama 2 构建,我们在一个包含 430 万份文档和 42 亿个 token 的新巴斯克语语料库上对其进行了持续预训练。在广泛的评估中,Latxa 大幅超越了我们所对比的所有先前开源模型。此外,尽管在阅读理解和知识密集型任务上仍有差距,但在语言熟练度和理解能力方面,它已能与 GPT-4 Turbo 相媲美。Latxa 系列模型以及我们新的预训练语料库和评估数据集均在开放许可下公开可用。我们的工具套件为低资源语言构建大型语言模型的方法研究提供了可复现的基础。
Latxa 是一系列基于 Meta LLaMA 模型 的大型语言模型(LLM)。当前的大型语言模型在英语等资源丰富的语言上展现出令人瞩目的性能,但对于巴斯克语及其他低资源语言,其性能却近乎随机猜测。这些局限加剧了高资源与低资源语言在数字发展方面的差距。我们推出 Latxa 旨在克服这些限制,并推动基于大型语言模型的巴斯克语技术与研究发展。Latxa 模型沿用其原始模型的架构,并在 Latxa Corpus v1.1(一个高质量的巴斯克语语料库)上进行了进一步训练。
该系列模型发布了三种规模:70 亿、130 亿和 700 亿参数。
使用以下代码开始使用模型。
from transformers import pipeline
pipe = pipeline("text-generation", model="HiTZ/latxa-13b-v1.2")
text = "Euskara adimen artifizialera iritsi da!"
pipe(text, max_new_tokens=50, num_beams=5)
>> [
{
'generated_text': 'Euskara adimen artifizialera iritsi da!\nEuskararen eta adimen artifizialaren arteko harremana aspaldikoa da,'
' baina azken urteotan aurrerapauso handiak eman dira arlo horretan'
}
]
Latxa 模型旨在处理巴斯克语数据;对于其他任何语言,其性能无法保证。与原始模型一样,Latxa 继承了 LLaMA-2 许可协议,允许用于商业和研究用途。
Latxa 系列模型是预训练的大型语言模型,未经过任何特定任务或指令微调。也就是说,该模型可以通过提示来执行特定任务,也可以针对特定用例进行进一步微调。
该模型未经过指令遵循或聊天助手功能的微调,因此,此类使用场景未经测试,也不推荐。
为了减少潜在的令人不安或有害的内容,Latxa 是在精心挑选和处理的数据上进行训练的,这些数据主要来自地方媒体、国家/地区报纸、百科全书和博客(见下文的 Latxa-Corpus)。尽管如此,该模型基于 LLaMA 模型构建,可能会带有与 LLaMA 相同的偏差、风险和局限性。
有关更多信息,请参见 LLaMA 的“伦理考量与局限性”部分。
我们的训练语料库结合了各种现有数据集以及我们在本项工作中发布的一些新数据集。在构建语料库时,我们优先考虑质量而非数量,优先选择高质量数据源,并应用了彻底的去重和过滤流程。训练该模型总共使用了 41.7 亿 tokens 的语料库。
更多详细信息,请参见 Latxa Corpus 数据集卡片。
此外,还包含了从 Pile 数据集中随机选择的 50 万份英文文档,以避免灾难性遗忘。
Latxa 的训练使用了 GPT-Neox 库。在基础设施方面,我们利用了位于意大利的 CINECA HPC Leonardo 计算集群,该集群由 3456 个节点组成,每个节点包含 4 块定制的 A100 64Gb GPU。模型训练了 10,000 步,序列长度为 4096 tokens,有效批处理大小为 200 万 tokens,总计处理 200 亿 tokens(约 4 个 epoch)。我们采用余弦学习率调度,预热步数为 500 步,衰减至峰值学习率的 3%。峰值学习率设置为 1e-4。所有其他超参数遵循 (Touvron et al., 2023)。
我们在零样本和少样本设置下,对模型在生成式、多项选择及分类任务上进行了评估。评估所使用的均为各数据集的巴斯克语分区。
对于大多数任务,我们使用准确率作为评估指标,因为这些任务均以选择题形式呈现。对于其余任务,尤其是来自BasqueGLUE基准测试的任务,我们使用了以下指标:
本模型使用Eleuther AI的LM Evaluation harness库进行评估。 若要复现我们的结果,请按照Latxa的Github仓库中的说明操作。
| 模型 | 规模 | XStory | Belebele | BasGLUE | EusProf | EusRead | EusTrivia | EusExams | 平均值 |
|---|---|---|---|---|---|---|---|---|---|
| 随机 | 50.00 | 25.00 | 37.50 | 25.00 | 25.83 | 26.55 | 25.00 | 30.70 | |
| GPT 3.5 Turbo | n/a | -- | 57.33 | 48.62 | 31.24 | 36.65 | 46.71 | 42.42 | -- |
| GPT 4 Turbo | n/a | -- | 90.67 | 62.90 | 56.70 | 75.85 | 73.12 | 70.22 | -- |
| XGLM | 7B | 57.71 | 23.88 | 41.47 | 22.96 | 24.43 | 26.53 | 24.59 | 32.51 |
| BLOOM | 7B | 57.18 | 27.00 | 40.17 | 25.34 | 28.41 | 27.17 | 25.07 | 33.86 |
| Mistral | 7B | 51.09 | 38.89 | 39.22 | 25.01 | 29.26 | 34.58 | 32.15 | 35.94 |
| Llama 2 | 7B | 50.43 | 26.22 | 38.20 | 24.09 | 27.27 | 29.50 | 28.84 | 32.51 |
| Latxa v1.1 | 7B | 65.45 | 37.33 | 52.56 | 30.26 | 25.00 | 42.16 | 33.82 | 40.94 |
| mGPT | 13B | 55.39 | 25.00 | 37.56 | 25.00 | 24.15 | 27.17 | 25.73 | 32.14 |
| Llama 2 | 13B | 50.63 | 32.00 | 38.98 | 25.90 | 28.98 | 33.53 | 29.66 | 34.36 |
| Latxa v1.1 | 13B | 66.51 | 53.89 | 53.36 | 44.11 | 32.67 | 56.38 | 43.66 | 50.08 |
| Mixtral | 8x7B | 52.55 | 50.44 | 45.00 | 26.43 | 37.50 | 42.51 | 39.87 | 41.97 |
| Yi | 34B | 52.22 | 54.56 | 43.90 | 27.30 | 34.66 | 42.57 | 39.68 | 42.05 |
| Llama 2 | 70B | 51.62 | 33.56 | 42.55 | 24.16 | 27.84 | 38.43 | 33.08 | 35.47 |
| Latxa v1.1 | 70B | 70.55 | 71.67 | 59.74 | 60.65 | 50.57 | 62.45 | 51.90 | 61.08 |
碳排放使用机器学习影响计算器进行估算,该计算器在Lacoste et al. (2019)中有所介绍。
| 模型 | 规模 | 时间(GPU小时) | 碳排放(千克二氧化碳当量) |
|---|---|---|---|
| Latxa v1.1 | 7B | 952.5小时 | 124.47千克 |
| Latxa v1.1 | 13B | 2,518.0小时 | 329.06千克 |
| Latxa v1.1 | 70B | 30,266.0小时 | 3,955.17千克 |
| 总计 | - | 33,636.5小时 | 4,408.7千克 |
本研究工作部分得到了巴斯克政府(IKER-GAITU项目)的支持。 同时也部分得到了数字化转型与公共职能部——由欧盟资助——下一代欧盟计划的支持,项目编号为2022/TL22/00215335。 模型的训练是在CINECA的Leonardo超级计算机上完成的,该计算机隶属于欧洲高性能计算联合事业,项目编号为EHPC-EXT-2023E01-013。
如需引用我们的工作,请使用:
@misc{etxaniz2024latxa,
title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}