Latxa 13b 模型卡片

我们推出了 Latxa，这是一系列针对巴斯克语的大型语言模型，参数规模从 70 亿到 700 亿不等。Latxa 基于 Llama 2 构建，我们在一个包含 430 万份文档和 42 亿个 token 的新巴斯克语语料库上对其进行了持续预训练。在广泛的评估中，Latxa 大幅超越了我们所对比的所有先前开源模型。此外，尽管在阅读理解和知识密集型任务上仍有差距，但在语言熟练度和理解能力方面，它已能与 GPT-4 Turbo 相媲美。Latxa 系列模型以及我们新的预训练语料库和评估数据集均在开放许可下公开可用。我们的工具套件为低资源语言构建大型语言模型的方法研究提供了可复现的基础。

模型详情

模型描述

Latxa 是一系列基于 Meta LLaMA 模型的大型语言模型（LLM）。当前的大型语言模型在英语等资源丰富的语言上展现出令人瞩目的性能，但对于巴斯克语及其他低资源语言，其性能却近乎随机猜测。这些局限加剧了高资源与低资源语言在数字发展方面的差距。我们推出 Latxa 旨在克服这些限制，并推动基于大型语言模型的巴斯克语技术与研究发展。Latxa 模型沿用其原始模型的架构，并在 Latxa Corpus v1.1（一个高质量的巴斯克语语料库）上进行了进一步训练。

该系列模型发布了三种规模：70 亿、130 亿和 700 亿参数。

开发机构： HiTZ 研究中心与 IXA 研究小组（巴斯克地区大学 UPV/EHU）
模型类型： 语言模型
支持语言（自然语言处理）： en，eu
许可证： llama2
基础模型： meta-llama/Llama-2-13b
联系方式： hitz@ehu.eus

快速开始

使用以下代码开始使用模型。


from transformers import pipeline

pipe = pipeline("text-generation", model="HiTZ/latxa-13b-v1.2")

text = "Euskara adimen artifizialera iritsi da!"

pipe(text, max_new_tokens=50, num_beams=5)

>> [
 {
  'generated_text': 'Euskara adimen artifizialera iritsi da!\nEuskararen eta adimen artifizialaren arteko harremana aspaldikoa da,'
  ' baina azken urteotan aurrerapauso handiak eman dira arlo horretan'
 }
]

用途

Latxa 模型旨在处理巴斯克语数据；对于其他任何语言，其性能无法保证。与原始模型一样，Latxa 继承了 LLaMA-2 许可协议，允许用于商业和研究用途。

直接使用

Latxa 系列模型是预训练的大型语言模型，未经过任何特定任务或指令微调。也就是说，该模型可以通过提示来执行特定任务，也可以针对特定用例进行进一步微调。

超出范围的使用

该模型未经过指令遵循或聊天助手功能的微调，因此，此类使用场景未经测试，也不推荐。

偏差、风险与局限性

为了减少潜在的令人不安或有害的内容，Latxa 是在精心挑选和处理的数据上进行训练的，这些数据主要来自地方媒体、国家/地区报纸、百科全书和博客（见下文的 Latxa-Corpus）。尽管如此，该模型基于 LLaMA 模型构建，可能会带有与 LLaMA 相同的偏差、风险和局限性。

有关更多信息，请参见 LLaMA 的“伦理考量与局限性”部分。

训练详情

训练数据

我们的训练语料库结合了各种现有数据集以及我们在本项工作中发布的一些新数据集。在构建语料库时，我们优先考虑质量而非数量，优先选择高质量数据源，并应用了彻底的去重和过滤流程。训练该模型总共使用了 41.7 亿 tokens 的语料库。

更多详细信息，请参见 Latxa Corpus 数据集卡片。

此外，还包含了从 Pile 数据集中随机选择的 50 万份英文文档，以避免灾难性遗忘。

训练过程

Latxa 的训练使用了 GPT-Neox 库。在基础设施方面，我们利用了位于意大利的 CINECA HPC Leonardo 计算集群，该集群由 3456 个节点组成，每个节点包含 4 块定制的 A100 64Gb GPU。模型训练了 10,000 步，序列长度为 4096 tokens，有效批处理大小为 200 万 tokens，总计处理 200 亿 tokens（约 4 个 epoch）。我们采用余弦学习率调度，预热步数为 500 步，衰减至峰值学习率的 3%。峰值学习率设置为 1e-4。所有其他超参数遵循 (Touvron et al., 2023)。

评估

我们在零样本和少样本设置下，对模型在生成式、多项选择及分类任务上进行了评估。评估所使用的均为各数据集的巴斯克语分区。

测试数据、因素与指标

测试数据

Belebele（Bandarkar 等人）：Belebele 是一个多项选择机器阅读理解（MRC）数据集，涵盖 122 种语言变体。我们采用 5 样本方式对模型进行评估。
- 数据卡片：https://huggingface.co/datasets/facebook/belebele
X-StoryCloze（Lin 等人）：XStoryCloze 包含英语 StoryCloze 数据集专业翻译而成的 10 种非英语语言版本。Story Cloze 是一个常识推理数据集，任务是为一个四句话的故事选择正确的结尾。我们采用零样本方式对模型进行评估。
- 数据卡片：https://huggingface.co/datasets/juletxara/xstory_cloze
BasqueGLUE（Urbizu 等人）：BasqueGLUE 是巴斯克语的自然语言理解（NLU）基准。我们采用 5 样本方式在以下任务上对模型进行评估：
- 数据卡片：https://huggingface.co/datasets/orai-nlp/basqueGLUE。
- 任务：
  - BEC2016eu：针对 2016 年巴斯克选举 campaign 的推文情感分析。
  - VaxxStance：围绕反疫苗运动的推文立场检测。
  - BTHCv2：新闻摘要的主题分类，包含 12 个类别。
  - EpecKorrefBin：与 WSC 类似的指代消解检测任务。
  - QNLIeu：基于巴斯克语维基百科构建的问答自然语言推理任务。
  - WiCeu：巴斯克语上下文中的词语（Word-in-Context）任务。
EusProficiency（Etxaniz 等人, 2024）：EusProficiency 包含 5,169 道习题，涵盖过往 EGA 考试（官方巴斯克语 C1 级水平证书考试）的不同主题。
- 数据卡片：https://huggingface.co/datasets/HiTZ/EusProficiency
EusReading（Etxaniz 等人, 2024）：EusReading 包含 352 道阅读理解习题（irakurmena），来源于同一批过往 EGA 考试。
- 数据卡片：https://huggingface.co/datasets/HiTZ/EusReading
EusTrivia（Etxaniz 等人, 2024）：EusTrivia 包含来源于多个在线资源的 1,715 道 trivia 问题。56.3% 的问题为小学水平（3-6 年级），其余则被视为具有挑战性。
- 数据卡片：https://huggingface.co/datasets/HiTZ/EusTrivia
EusExams（Etxaniz 等人, 2024）：EusExams 是一系列测试的集合，旨在帮助人们准备多个巴斯克机构的公务员考试，包括公共卫生系统 Osakidetza、巴斯克政府、毕尔巴鄂和加斯泰斯市议会以及巴斯克地区大学（UPV/EHU）。
- 数据卡片：https://huggingface.co/datasets/HiTZ/EusExams

评估指标

对于大多数任务，我们使用准确率作为评估指标，因为这些任务均以选择题形式呈现。对于其余任务，尤其是来自BasqueGLUE基准测试的任务，我们使用了以下指标：

微平均F1值（Micro F1）：BEC2016-eu和BHTCv2
宏平均F1值（Macro F1）：VaxxStance（支持与反对）

结果

本模型使用Eleuther AI的LM Evaluation harness库进行评估。若要复现我们的结果，请按照Latxa的Github仓库中的说明操作。

模型	规模	XStory	Belebele	BasGLUE	EusProf	EusRead	EusTrivia	EusExams	平均值
随机		50.00	25.00	37.50	25.00	25.83	26.55	25.00	30.70

GPT 3.5 Turbo	n/a	--	57.33	48.62	31.24	36.65	46.71	42.42	--
GPT 4 Turbo	n/a	--	90.67	62.90	56.70	75.85	73.12	70.22	--

XGLM	7B	57.71	23.88	41.47	22.96	24.43	26.53	24.59	32.51
BLOOM	7B	57.18	27.00	40.17	25.34	28.41	27.17	25.07	33.86
Mistral	7B	51.09	38.89	39.22	25.01	29.26	34.58	32.15	35.94
Llama 2	7B	50.43	26.22	38.20	24.09	27.27	29.50	28.84	32.51
Latxa v1.1	7B	65.45	37.33	52.56	30.26	25.00	42.16	33.82	40.94

mGPT	13B	55.39	25.00	37.56	25.00	24.15	27.17	25.73	32.14
Llama 2	13B	50.63	32.00	38.98	25.90	28.98	33.53	29.66	34.36
Latxa v1.1	13B	66.51	53.89	53.36	44.11	32.67	56.38	43.66	50.08

Mixtral	8x7B	52.55	50.44	45.00	26.43	37.50	42.51	39.87	41.97
Yi	34B	52.22	54.56	43.90	27.30	34.66	42.57	39.68	42.05
Llama 2	70B	51.62	33.56	42.55	24.16	27.84	38.43	33.08	35.47
Latxa v1.1	70B	70.55	71.67	59.74	60.65	50.57	62.45	51.90	61.08

环境影响

碳排放使用机器学习影响计算器进行估算，该计算器在Lacoste et al. (2019)中有所介绍。

模型	规模	时间（GPU小时）	碳排放（千克二氧化碳当量）
Latxa v1.1	7B	952.5小时	124.47千克
Latxa v1.1	13B	2,518.0小时	329.06千克
Latxa v1.1	70B	30,266.0小时	3,955.17千克
总计	-	33,636.5小时	4,408.7千克

硬件类型： 高性能计算集群，4x A100 64Gb节点
使用时长： 33,636.5小时
计算集群： CINECA HPC
计算区域： 意大利
碳排放： 4,408.7千克 CO₂ eq

致谢

本研究工作部分得到了巴斯克政府（IKER-GAITU项目）的支持。同时也部分得到了数字化转型与公共职能部——由欧盟资助——下一代欧盟计划的支持，项目编号为2022/TL22/00215335。模型的训练是在CINECA的Leonardo超级计算机上完成的，该计算机隶属于欧洲高性能计算联合事业，项目编号为EHPC-EXT-2023E01-013。

引用

如需引用我们的工作，请使用：

@misc{etxaniz2024latxa,
      title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque}, 
      author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
      year={2024},
      eprint={2403.20266},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}