开放思维

import argparse

import torch
from openmind import is_torch_npu_available
from transformers import AutoTokenizer, AutoModelForCausalLM


def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default=None,
    )

    args = parser.parse_args()
    return args


def main():
    args = parse_args()
    if args.model_name_or_path:
        model_path = args.model_name_or_path
    else:
        model_path = "../"

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"

    tokenizer = AutoTokenizer.from_pretrained("../")
    model = AutoModelForCausalLM.from_pretrained("../").to(device)

    input_ids = tokenizer("Gra", return_tensors='pt').to(model.device)["input_ids"]
    output = model.generate(input_ids, max_new_tokens=48, do_sample=True, temperature=0.7)
    print(tokenizer.decode(output[0]))


if __name__ == "__main__":
    main()

Salamandra 模型卡片

Salamandra 是一款从零开始预训练的高度多语言模型，提供三种不同参数规模——20亿、70亿和400亿，并分别配有基础版和指令微调版。本模型卡片对应20亿参数的基础版本。

要查看其他 Salamandra 版本的模型卡片，请参考模型索引。

整个 Salamandra 系列均基于宽松的 Apache 2.0 许可证发布。除开放权重外，所有训练脚本和配置文件均在此 GitHub 仓库中公开。

模型详情

描述

基于 Transformer 的仅解码器语言模型，从零开始在7.8万亿 tokens 的高度精选数据上进行预训练。预训练语料包含35种欧洲语言的文本及代码。

超参数

各模型的完整超参数列表可在此处找到。

架构


总参数数量	2,253,490,176
嵌入层参数数量	524,288,000
层数	24
隐藏层大小	2,048
注意力头数	16
上下文长度	8,192
词汇表大小	256,000
精度	bfloat16
嵌入类型	RoPE
激活函数	SwiGLU
层归一化	RMS Norm
Flash 注意力	✅
分组查询注意力	❌
查询组数	N/A

预期用途

直接使用

这些模型旨在用于训练数据所包含的任意语言的研究和商业用途。基础模型可用于语言生成，或针对特定用例进行进一步微调。指令微调版本可用作通用助手，但用户需充分了解模型的局限性。

超出范围的使用场景

本模型不得用于恶意活动，例如伤害他人或侵犯人权。任何下游应用都必须遵守现行法律法规。不建议在未进行适当风险评估和缓解措施的情况下，在生产环境中不负责任地使用本模型。

硬件和软件

训练框架

预训练使用了 NVIDIA 的 NeMo Framework，该框架利用 PyTorch Lightning 在高度分布式环境中实现高效的模型训练。

指令微调版本通过 FastChat 生成。

计算基础设施

所有模型均在 MareNostrum 5 上进行训练，这是一台由巴塞罗那超级计算中心托管和运营的准百亿亿次 EuroHPC 超级计算机。

加速分区由 1,120 个节点组成，具体规格如下：

4 块 Nvidia Hopper GPU，每块配备 64GB HBM2 内存
2 颗 Intel Sapphire Rapids 8460Y+ 处理器，主频 2.3GHz，每颗 32 核（共 64 核）
4 个 NDR200（每节点带宽 800Gb/s）
512GB 主内存（DDR5）
460GB NVMe 存储

模型	节点数	GPU 数
2B	64	256
7B	128	512
40B	256 / 512	1,024 / 2,048

使用方法

本节提供了使用多种方法进行推理的示例。

推理

您将找到不同的推理运行技术，包括 Huggingface 的 Text Generation Pipeline、多 GPU 配置以及用于可扩展高效生成的 vLLM。

使用 Huggingface 的 Text Generation Pipeline 进行推理

Huggingface Text Generation Pipeline 提供了一种简单直接的方式来使用 Salamandra-2b 模型进行推理。

pip install transformers torch accelerate sentencepiece protobuf

显示代码

from transformers import pipeline, set_seed

model_id = "BSC-LT/salamandra-2b"

# Sample prompts
prompts = [
    "Todo el mundo sabe que vivir en Barcelona es",
    "¿Pueblo o ciudad? Una ventaja de vivir en la ciudad es que hay muchas oportunidades de ocio y empleo, así como una gran diversidad de comercios para todos los gustos. Sin embargo, las ciudades suelen ser ",
    "Llegir ens proporciona",
    "What I find more fascinating about languages is that",
    "La vie peut être",
    "The future of AI is",
]

# Create the pipeline
generator = pipeline("text-generation", model_id, device_map="auto")
generation_args = {
  "temperature": 0.1,
  "top_p": 0.95,
  "max_new_tokens": 25,
  "repetition_penalty": 1.2,
  "do_sample": True
}

# Fix the seed
set_seed(1)
# Generate texts
outputs = generator(prompts, **generation_args)
# Print outputs
for output in outputs:
  print(output[0]["generated_text"])

使用单/多 GPU 进行推理

本节提供了一个使用 Huggingface 的 AutoModel 类运行推理的简单示例。

pip install transformers torch accelerate sentencepiece protobuf

显示代码

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "BSC-LT/salamandra-2b"

# Input text
text = "El mercat del barri és"

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
# Load the model
model = AutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
  torch_dtype=torch.bfloat16
)

generation_args = {
  "temperature": 0.1,
  "top_p": 0.95,
  "max_new_tokens": 25,
  "repetition_penalty": 1.2,
  "do_sample": True
}

inputs = tokenizer(text, return_tensors="pt")
# Generate texts
output = model.generate(input_ids=inputs["input_ids"].to(model.device), attention_mask=inputs["attention_mask"], **generation_args)
# Print outputs
print(tokenizer.decode(output[0], skip_special_tokens=True))

使用 vLLM 进行推理

vLLM 是一个高效的推理库，可实现更快、更具扩展性的文本生成。

pip install vllm

显示代码

from vllm import LLM, SamplingParams

model_id = "BSC-LT/salamandra-2b"

# Sample prompts
prompts = [
    "Todo el mundo sabe que vivir en Barcelona es",
    "¿Pueblo o ciudad? Una ventaja de vivir en la ciudad es que hay muchas oportunidades de ocio y empleo, así como una gran diversidad de comercios para todos los gustos. Sin embargo, las ciudades suelen ser ",
    "Llegir ens proporciona",
    "What I find more fascinating about languages is that",
    "La vie peut être",
    "The future of AI is",
]
# Create a sampling params object
sampling_params = SamplingParams(
  temperature=0.1,
  top_p=0.95,
  seed=1,
  max_tokens=25,
  repetition_penalty=1.2)

# Create an LLM
llm = LLM(model=model_id)
# Generate texts
outputs = llm.generate(prompts, sampling_params)
# Print outputs
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

数据

预训练数据

训练语料库包含2.4万亿个token，涵盖35种欧洲语言和92种编程语言，预处理文本总量达33TB。语言采样采用人工方式，对西班牙的官方语言（西班牙语、加泰罗尼亚语、加利西亚语和巴斯克语）进行2倍过采样，代码采样量减半，其余语言保持原样，最终分布如下：

语言分布

这个高度多语言的语料库主要由Colossal OSCAR的数据构成，占总token数的66.06%。其次是Starcoder，占11.91%，Spanish Crawling占3.34%。接下来是French PD，占3.12%，Proof Pile占1.98%。其他值得注意的贡献包括Macocu、Pile of Law和Eurlex，各自贡献约1.5%至1.3%。这些主要来源共同构成了语料库的主体，为语言模型的训练提供了丰富多样的数据集。其余10%来自各种语言的小型数据源。

欢迎点击下方展开按钮查看完整数据源列表。

数据源

数据集	语言	来源
Parlamint corpus	at, bg, cz, dk, ee, es, es-ga, fi, fr, gb, gr, hr, hu, it, lv, nl, no, pl, pt, rs, se, si	Erjavec et al., 2021
Bulgarian National Corpus	bg	链接
Colossal OSCAR 1.0	bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk	Brack et al., 2024
Wikimedia dumps	bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, pl, pt, ro, sh, sk, sl, sr, uk	链接
OpenSubtitlesv2016	bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, gl, hr, it, lt, lv, nl, no, pl, pt, ro, sk, sl, sr, sv, uk	Lison & Tiedemann, 2016
MaCoCu web corpus	bg, ca, el, hr, mt, sl, sr, uk	Bañón et al., 2022
EurLEX-Resources	bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv	链接
MC4-Legal	bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv	链接
CURLICAT Corpus	bg, hr, hu, pl, ro, sk, sl	Váradi et al., 2022
CATalog	ca	Palomar-Giner et al., 2024
Spanish Crawling	ca, es, eu, gl	相关西班牙网站爬取
Starcoder	code	Li et al., 2023
SYN v9: large corpus of written Czech	cs	Křen et al., 2021
Welsh-GOV	cy	从链接爬取
DaNewsroom	da	Varab & Schluter, 2020
Danish GigaWord	da	Strømberg-Derczynski et al., 2021
DK-CLARIN Reference Corpus of General Danish	da	链接
The Danish Parliament Corpus 2009 - 2017, v1	da	Hansen, 2018
DeWaC	de	链接
Open Legal Data - German court decisions and laws	de	Ostendorff et al., 2020
Greek Legal Code	el	Papaloukas et al., 2021
Greek Web Corpus	el	Outsios et al., 2018
Auxiliary Mathematics Problems and Solutions (AMPS) dataset	en	Hendrycks et al., 2021
BIGPATENT	en	Sharma et al., 2019
FineWeb-Edu (350BT subset)	en	Penedo et al., 2024
peS2o	en	Soldaini & Lo, 2023
PG-19	en	Rae et al., 2019
Pile of Law (selected subsets)	en	Henderson* et al., 2022
proof-pile	en	链接
RedPajama-Data T1 (StackExchange subset)	en	Computer, 2023
The Pile (PhilPapers subset)	en	Gao et al., 2021
Biomedical	es	内部生成的生物医学数据集：Wikipedia LS、Pubmed、MeSpEn、专利、临床病例、医学爬虫
HPLTDatasets v1 - Spanish	es	de Gibert et al., 2024
Legal	es	内部生成的法律数据集：BOE、BORME、参议院、众议院、西班牙法院命令、DOGC
Scientific	es	内部生成的科学数据集：Dialnet、Scielo、CSIC、TDX、BSC、UCM
Spanish Legal Domain Corpora	es	Gutiérrez-Fandiño et al., 2021
Estonian National Corpus 2021	et	Koppel & Kallas, 2022
Estonian Reference Corpus	et	链接
EusCrawl (w/o Wikipedia or NC-licenses)	eu	Artetxe et al., 2022
Latxa Corpus v1.1	eu	Etxaniz et al., 2024 链接
Aya Dataset (w/o Evaluation Suite)	eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk	Singh et al., 2024
Yle Finnish News Archive	fi	链接
CaBeRnet: a New French Balanced Reference Corpus	fr	Popa-Fabre et al., 2020
French Public Domain Books	fr	链接
French Public Domain Newspapers	fr	链接
Irish Universal Dependencies	ga	链接
The Gaois bilingual corpus of English-Irish legislation (Irish legislation)	ga	链接
CorpusNÓS	gl	de-Dios-Flores et al., 2024
Croatian web corpus hrWaC 2.1	hr	Ljubešić & Klubička, 2014
ITWaC	it	链接
Corpus of State-related content from the Latvian Web (Processed)	lv	链接
Korpus Malti	mt	Micallef et al., 2022
SoNaR Corpus NC 1.2	nl	链接
Norwegian Colossal Corpus	nn, no	Kummervold et al., 2021
Occitan Corpus	oc	由IEA提供
NKJP-PodkorpusMilionowy-1.2 (National Corpus of Polish)	pl	Lewandowska-Tomaszczyk et al., 2013
Polish Parliamentary Corpus / Korpus Dyskursu Parlamentarnego	pl	Ogrodniczuk, 2018
Brazilian Portuguese Web as Corpus	pt	Wagner Filho et al., 2018
ParlamentoPT	pt	Rodrigues et al., 2023
MARCELL Romanian legislative subcorpus v2	ro	链接
Korpus slovenských právnych predpisov v1.9	sk	链接
od-justice 2.0	sk	链接
Corpus of academic Slovene KAS 2.0	sl	Žagar et al., 2022
slWaC web corpus	sl	Erjavec et al., 2015
SrpKorSubset (news, legal, academic, conversation, literary)	sr	链接
The Swedish Culturomics Gigaword Corpus	sv	Rødven-Eide, 2016
Corpus of laws and legal acts of Ukraine	uk	链接

如需查阅包含相应许可证的数据摘要文件，请发送电子邮件至ipr@bsc.es。

参考文献

Abadji, J., Suárez, P. J. O., Romary, L., & Sagot, B. (2021). Ungoliant: 一个用于生成超大规模多语言网络语料库的优化管道 (H. Lüngen, M. Kupietz, P. Bański, A. Barbaresi, S. Clematide, & I. Pisetta 编; 第 1–9 页). Leibniz-Institut für Deutsche Sprache. 链接
Artetxe, M., Aldabe, I., Agerri, R., Perez-de-Viñaspre, O., & Soroa, A. (2022). 语料库质量对低资源语言真的重要吗？
Bañón, M., Esplà-Gomis, M., Forcada, M. L., García-Romero, C., Kuzman, T., Ljubešić, N., van Noord, R., Sempere, L. P., Ramírez-Sánchez, G., Rupnik, P., Suchomel, V., Toral, A., van der Werff, T., & Zaragoza, J. (2022). MaCoCu: 大规模单语和双语数据的收集与整理：聚焦资源不足语言. 第 23 届欧洲机器翻译协会年会论文集, 303–304. 链接
Brack, M., Ostendorff, M., Suarez, P. O., Saiz, J. J., Castilla, I. L., Palomar-Giner, J., Shvets, A., Schramowski, P., Rehm, G., Villegas, M., & Kersting, K. (2024). Community OSCAR: 多语言网络数据的社区协作成果. 链接
Computer, T. (2023). RedPajama: 重现 LLaMA 训练数据集的开源方案 [计算机软件]. 链接
de Gibert, O., Nail, G., Arefyev, N., Bañón, M., van der Linde, J., Ji, S., Zaragoza-Bernabeu, J., Aulamo, M., Ramírez-Sánchez, G., Kutuzov, A., Pyysalo, S., Oepen, S., & Tiedemann, J. (2024). 一个面向高性能语言技术的新型大规模多语言数据集 (arXiv:2403.14009). arXiv. 链接
Dodge, J., Sap, M., Marasović, A., Agnew, W., Ilharco, G., Groeneveld, D., Mitchell, M., & Gardner, M. (2021). 大型网络文本语料库文档化：以 Colossal Clean Crawled Corpus 为例. In M.-F. Moens, X. Huang, L. Specia, & S. W. Yih (编), 2021 年自然语言处理经验方法会议论文集 (第 1286–1305 页). 计算语言学协会. 链接
Erjavec, T., Ljubešić, N., & Logar, N. (2015). 斯洛文尼亚网络语料库 slWaC. Informatica (Slovenia), 39, 35–42.
Erjavec, T., Ogrodniczuk, M., Osenova, P., Ljubešić, N., Simov, K., Grigorova, V., Rudolf, M., Pančur, A., Kopp, M., Barkarson, S., Steingrímsson, S. hór, van der Pol, H., Depoorter, G., de Does, J., Jongejan, B., Haltrup Hansen, D., Navarretta, C., Calzada Pérez, M., de Macedo, L. D., … Rayson, P. (2021). 议会辩论的多语言可比标注语料库 ParlaMint.ana 2.1. 链接
Etxaniz, J., Sainz, O., Perez, N., Aldabe, I., Rigau, G., Agirre, E., Ormazabal, A., Artetxe, M., & Soroa, A. (2024). Latxa: 一个面向巴斯克语的开源语言模型与评估套件. [链接] (https://arxiv.org/abs/2403.20266)
Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., Foster, C., Phang, J., He, H., Thite, A., Nabeshima, N., Presser, S., & Leahy, C. (2021). The Pile: 一个用于语言建模的 800GB 多样化文本数据集. CoRR, abs/2101.00027. 链接
Gutiérrez-Fandiño, A., Armengol-Estapé, J., Gonzalez-Agirre, A., & Villegas, M. (2021). 西班牙法律语言模型与语料库.
Hansen, D. H. (2018). 丹麦议会语料库 2009—2017，v1. 链接
Henderson*, P., Krass*, M. S., Zheng, L., Guha, N., Manning, C. D., Jurafsky, D., & Ho, D. E. (2022). Pile of Law: 从法律中学习负责任的数据过滤及一个 256GB 开源法律数据集. arXiv. 链接
Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., & Steinhardt, J. (2021). 用 MATH 数据集衡量数学问题解决能力. NeurIPS.
Jansen, T., Tong, Y., Zevallos, V., & Suarez, P. O. (2022). 对质量感到困惑：一种基于困惑度的多语言异构网络数据成人与有害内容检测方法.
Koppel, K., & Kallas, J. (2022). Eesti keele ühendkorpuste sari 2013–2021: Mahukaim eestikeelsete digitekstide kogu. Eesti Rakenduslingvistika Ühingu Aastaraamat Estonian Papers in Applied Linguistics, 18, 207–228. 链接
Křen, M., Cvrček, V., Henyš, J., Hnátková, M., Jelínek, T., Kocek, J., Kováříková, D., Křivan, J., Milička, J., Petkevič, V., Procházka, P., Skoumalová, H., Šindlerová, J., & Škrabal, M. (2021). SYN v9: 大型书面捷克语语料库. 链接
Kreutzer, J., Caswell, I., Wang, L., Wahab, A., van Esch, D., Ulzii-Orshikh, N., Tapo, A., Subramani, N., Sokolov, A., Sikasote, C., Setyawan, M., Sarin, S., Samb, S., Sagot, B., Rivera, C., Rios, A., Papadimitriou, I., Osei, S., Suarez, P. O., … Adeyemi, M. (2022). 质量概览：网络爬取多语言数据集的审计. Transactions of the Association for Computational Linguistics, 10, 50–72. 链接
Kummervold, P. E., De la Rosa, J., Wetjen, F., & Brygfjeld, S. A. (2021). 国家数字图书馆的实施：挪威 Transformer 模型案例. In S. Dobnik & L. Øvrelid (编), 第 23 届北欧计算语言学会议论文集 (NoDaLiDa) (第 20–29 页). 瑞典林雪平大学电子出版社. 链接
Lewandowska-Tomaszczyk, B., Górski, R., Łaziński, M., & Przepiórkowski, A. (2013). 波兰国家语料库 (NKJP). Language use and data analysis. 309–319.
Li, R., Allal, L. B., Zi, Y., Muennighoff, N., Kocetkov, D., Mou, C., Marone, M., Akiki, C., Li, J., Chim, J., Liu, Q., Zheltonozhskii, E., Zhuo, T. Y., Wang, T., Dehaene, O., Davaadorj, M., Lamy-Poirier, J., Monteiro, J., Shliazhko, O., … Vries, H. de. (2023). StarCoder: 愿源代码与你同在！
Lison, P., & Tiedemann, J. (2016). OpenSubtitles2016: 从电影和电视字幕中提取大型平行语料库. In N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (编), 第十届国际语言资源与评估会议论文集 (LREC’16) (第 923–929 页). 欧洲语言资源协会 (ELRA). 链接
Ljubešić, N., & Klubička, F. (2014). Bs,hr,srWaC - 波斯尼亚语、克罗地亚语和塞尔维亚语网络语料库. In F. Bildhauer & R. Schäfer (编), 第 9 届网络作为语料库研讨会论文集 (WaC-9) (第 29–35 页). 计算语言学协会. 链接
Micallef, K., Gatt, A., Tanti, M., van der Plas, L., & Borg, C. (2022). 低资源语言预训练数据的质量与数量：马耳他语新语料库与 BERT 模型. 第三届低资源自然语言处理深度学习研讨会论文集, 90–101. 链接
Ogrodniczuk, M. (2018). 波兰议会语料库. 链接
Ostendorff, M., Blume, T., & Ostendorff, S. (2020). 迈向开放的法律信息平台. 2020 年 ACM/IEEE 数字图书馆联合会议论文集, 385–388. 链接
Ostendorff, M., Suarez, P. O., Lage, L. F., & Rehm, G. (2024). LLM-Datasets: 大型语言模型预训练数据集的开放框架. 第一届语言建模会议. 链接
Outsios, S., Skianis, K., Meladianos, P., Xypolopoulos, C., & Vazirgiannis, M. (2018). 大规模希腊语网络内容的词嵌入. arXiv 预印本 arXiv:1810.06694.
Palomar-Giner, J., Saiz, J. J., Espuña, F., Mina, M., Da Dalt, S., Llop, J., Ostendorff, M., Ortiz Suarez, P., Rehm, G., Gonzalez-Agirre, A., & Villegas, M. (2024). A CURATEd CATalog: 为中等资源语言重新思考预训练语料库的提取. In N. Calzolari, M.-Y. Kan, V. Hoste, A. Lenci, S. Sakti, & N. Xue (编), 2024 年计算语言学与语言资源评估联合国际会议论文集 (LREC-COLING 2024) (第 335–349 页). ELRA 与 ICCL. 链接
Papaloukas, C., Chalkidis, I., Athinaios, K., Pantazi, D.-A., & Koubarakis, M. (2021). 希腊立法的多粒度法律主题分类. 2021 年自然法律语言处理研讨会论文集, 63–75. 链接
Popa-Fabre, M., Ortiz Suárez, P. J., Sagot, B., & de la Clergerie, É. (2020). 法国语境化词嵌入与 CaBeRnet：一个新的法语平衡参考语料库. 第 8 届大型语料库管理挑战研讨会论文集, 15–23. 链接
Rae, J. W., Potapenko, A., Jayakumar, S. M., Hillier, C., & Lillicrap, T. P. (2019). 用于长序列建模的压缩 Transformer. arXiv 预印本. 链接
Rodrigues, J., Gomes, L., Silva, J., Branco, A., Santos, R., Cardoso, H. L., & Osório, T. (2023). 用 Transformer Albertina PT-* 推进葡萄牙语的神经编码.
Rødven-Eide, S. (2016). 瑞典文化组学千兆词 corpusThe Swedish Culturomics Gigaword Corpus [数据集]. Språkbanken Text. 链接
Sharma, E., Li, C., & Wang, L. (2019). BIGPATENT: 一个用于抽象和连贯摘要的大规模数据集. CoRR, abs/1906.03741. 链接
Soldaini, L., & Lo, K. (2023). peS2o（在 S2ORC 上高效预训练）数据集. Allen Institute for AI.
Strømberg-Derczynski, L., Ciosici, M., Baglini, R., Christiansen, M. H., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Madsen, J., Petersen, M. L., Rystrøm, J. H., & Varab, D. (2021). 丹麦千兆词语料库. 第 23 届北欧计算语言学会议论文集 (NoDaLiDa), 413–421. 链接
Subramani, N., Luccioni, S., Dodge, J., & Mitchell, M. (2023). 检测训练语料库中的个人信息：一项分析. 208–220. 链接
Varab, D., & Schluter, N. (2020). DaNewsroom: 一个大规模丹麦语摘要数据集. 第 12 届语言资源与评估会议论文集, 6731–6739. 链接
Váradi, T., Nyéki, B., Koeva, S., Tadić, M., Štefanec, V., Ogrodniczuk, M., Nitoń, B., Pezik, P., Barbu Mititelu, V., Irimia, E., Mitrofan, M., Tufi\textcommabelows, D., Garabík, R., Krek, S., & Repar, A. (2022). 介绍 CURLICAT 语料库：来自精选来源的七种语言领域特定标注语料库. In N. Calzolari, F. Béchet, P. Blache, K. Choukri, C. Cieri, T. Declerck, S. Goggi, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, J. Odijk, & S. Piperidis (编), 第十三届语言资源与评估会议论文集 (第 100–108 页). 欧洲语言资源协会. 链接
Wagner Filho, J. A., Wilkens, R., Idiart, M., & Villavicencio, A. (2018). The brwac corpus: 巴西葡萄牙语的新开放资源. 第十一届国际语言资源与评估会议论文集 (LREC 2018).
Žagar, A., Kavaš, M., Robnik-Šikonja, M., Erjavec, T., Fišer, D., Ljubešić, N., Ferme, M., Borovič, M., Boškovič, B., Ojsteršek, M., & Hrovat, G. (2022). 斯洛文尼亚学术语料库 KAS 2.0. 链接
Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, and Samuel Bowman. 2022. BBQ: 一个手动构建的问答偏见基准. In Findings of the Association for Computational Linguistics: ACL 2022, pages 2086–2105, Dublin, Ireland. Association for Computational Linguistics.
Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. 2019. The Woman Worked as a Babysitter: On Biases in Language Generation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3407–3412, Hong Kong, China. Association for Computational Linguistics.
Clark, P., Cowhey, I., Etzioni, O., Khot, T., Sabharwal, A., Schoenick, C., & Tafjord, O. (2018). Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge. arXiv:1803. 05457v1.
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 1631–1642, Seattle, Washington, USA. Association for Computational Linguistics.
Penedo, G., Kydlíček, H., allal, L. B., Lozhkov, A., Mitchell, M., Raffel, C., Von Werra, L., & Wolf, T. (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale (arXiv:2406.17557). arXiv. http://arxiv.org/abs/2406.17557
Singh, S., Vargus, F., Dsouza, D., Karlsson, B. F., Mahendiran, A., Ko, W.-Y., Shandilya, H., Patel, J., Mataciunas, D., OMahony, L., Zhang, M., Hettiarachchi, R., Wilson, J., Machado, M., Moura, L. S., Krzemiński, D., Fadaei, H., Ergün, I., Okoh, I., … Hooker, S. (2024). Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning (arXiv:2402.06619). arXiv. http://arxiv.org/abs/2402.06619

该模型训练了 3 个 epoch，最后还有两轮各 0.3B 的更高质量 tokens，这意味着预训练期间看到的总 token 数约为 7.8 万亿 tokens。

我们按照 (Gebru et al., 2021) 定义的最佳实践，提供了一个详细的数据表部分。

数据表

动机

创建该数据集的目的是什么？是否有特定的任务？是否有需要填补的特定空白？请提供描述。

创建此数据集的目的是预训练 Salamandra 系列多语言模型，使其在大量欧洲语言（35 种）和代码（包括 92 种不同编程语言）上具有高性能。此外，我们旨在特别代表西班牙的官方语言：西班牙语、加泰罗尼亚语、加利西亚语和巴斯克语。这就是我们对这些语言进行过采样的原因。

我们发现大规模多语言数据存在巨大缺口，特别是在少数民族语言方面（Ostendorff & Rehm, 2023），因此我们在创建此预训练数据集时所做的部分努力促成了对大型项目的贡献，例如 Community OSCAR（Brack et al., 2024），其中包括 151 种语言和 40T 单词，以及 CATalog（Palomar-Giner et al., 2024），世界上最大的加泰罗尼亚语开放数据集。

谁创建了该数据集（例如，哪个团队、研究小组）以及代表哪个实体（例如，公司、机构、组织）？

该数据集由巴塞罗那超级计算中心 - 国家超级计算中心 (BSC-CNS) 的语言技术部门 (LangTech) 创建，该部门旨在通过前沿研究和开发以及 HPC 的使用来推进自然语言处理领域。具体而言，它是由该部门的数据团队创建的，主要贡献者是 Javier Saiz、Ferran Espuña 和 Jorge Palomar。

然而，如果没有大量合作者、合作伙伴和公共机构的协作，数据集的创建是不可能的，这些在致谢部分有详细说明。

谁资助了数据集的创建？如果有相关资助，请提供资助者名称以及资助名称和编号。

这项工作/研究由加泰罗尼亚政府通过 Aina 项目推动和资助。

构成

组成数据集的实例代表什么（例如，文档、照片、人物、国家）？是否有多种类型的实例（例如，电影、用户和评分；人物和他们之间的互动；节点和边）？请提供描述。

该数据集完全由多种语言的文本文档组成。具体而言，数据主要来源于以下数据库和存储库：

Common Crawl： 由 Common Crawl 非营利组织运营的保存网站数据的存储库。它每月更新，根据 CC0 1.0 公共领域许可进行分发。
GitHub： 允许开发人员创建、存储、管理和共享其代码的社区平台。存储库经过爬取，然后根据其原始许可进行分发，这些许可可能从宽松许可到非商业许可不等。
Wikimedia： 保存由维基媒体基金会管理的集合数据库的数据库，包括 Wikipedia、Wikibooks、Wikinews、Wikiquote、Wikisource 和 Wikivoyage。它每月更新，根据知识共享署名 - 相同方式共享许可 4.0 进行分发。
EurLex： 保存欧盟法律文件集合的存储库，有欧盟所有 24 种官方语言版本，由欧盟出版物办公室运营。它每日更新，根据知识共享署名 4.0 国际许可进行分发。
其他存储库： 在获得许可的情况下，对特定存储库进行了爬取，以获取特定领域的语料库，包括学术、法律和报纸存储库。

我们在本节末尾提供了完整的数据集来源列表。

总共有多少个实例（如果适用，每种类型有多少）？

该数据集包含多种语言的各种实例，并对某些语言进行了显著调整。英语占比最大，占总数据的 39.08%。西班牙语上采样了 2 倍，占比达 16.59%，加泰罗尼亚语 (1.84%)、巴斯克语 (0.26%) 和加利西亚语 (0.36%) 也上采样了 2 倍。另一方面，代码相关数据下采样了一半，占总数的 6.42%。其他主要语言包括法语 (6.59%)、俄语 (5.39%)、德语 (4.25%) 和匈牙利语 (3.93%)，还有几种其他语言占比在 1% 到 2% 之间，其余部分由各种其他语言构成。

数据集是否包含所有可能的实例，还是从更大集合中抽取的样本（不一定是随机的）？如果数据集是样本，那么更大的集合是什么？样本是否代表更大的集合（例如，地理覆盖范围）？如果是，请描述如何验证/核实这种代表性。如果不代表更大的集合，请描述原因（例如，为了涵盖更多样化的实例，因为实例被保留或不可用）。

该数据集是来自多个来源的样本，根据内容的主要语言具有不同的权重：西班牙语、加泰罗尼亚语、巴斯克语和加利西亚语内容上采样了 2 倍，而编程语言下采样了一半。其他来源则按其出现比例进行采样。

每个实例由什么数据组成？“原始”数据（例如，未处理的文本或图像）还是特征？无论哪种情况，请提供描述。

每个实例均包含经过去重、语言识别和特定来源过滤处理的文本文档。部分文档需要通过光学字符识别（OCR）从PDF等非文本格式中提取文本。

每个实例是否关联有标签或目标？如果有，请提供说明。

每个实例都标有唯一标识符、内容的主要语言以及网络来源实例的URL。系统会自动分配额外标签，用于检测特定类型的内容（如有害或有毒内容），并为不期望的特征（如极短文档、高符号密度等）分配初步指标，这些指标用于过滤实例。

单个实例中是否存在信息缺失？如果有，请说明缺失原因（例如，因无法获取）。这不包括有意移除的信息，但可能包括例如编辑过的文本。

实例中无重要信息缺失。

实例之间的关系是否明确（例如，用户的电影评分、社交网络链接）？如果是，请描述这些关系是如何明确的。

实例通过共享元数据（如来源和语言标识符）建立关联。

是否有推荐的数据拆分方式（例如，训练集、开发/验证集、测试集）？如果有，请描述这些拆分方式及其背后的理由。

数据集随机拆分为训练集、验证集和测试集。

数据集中是否存在错误、噪声来源或冗余？如果有，请提供说明。

尽管已移除每个来源内的重复实例，但在段落和句子层面仍存在冗余，尤其是在网络来源的实例中，搜索引擎优化（SEO）技术和模板导致文本模式重复。由于格式差异，部分实例也可能在不同来源间重复。

数据集是独立的，还是链接到或依赖外部资源（例如，网站、推文、其他数据集）？如果链接到或依赖外部资源，a) 是否能保证这些资源长期存在且保持不变；b) 是否有完整数据集的官方存档版本（即包含数据集创建时存在的外部资源）；c) 与外部资源相关的是否存在任何限制（例如，许可、费用）可能适用于数据集使用者？请提供所有外部资源的描述、相关限制以及适当的链接或其他访问点。

数据集是独立的，不依赖外部资源。

数据集中是否包含可能被视为机密的数据（例如，受法律特权保护的数据、医患保密数据、包含个人非公开通信内容的数据）？如果有，请提供说明。

数据集中不包含机密数据。

数据集中是否包含直接查看时可能具有冒犯性、侮辱性、威胁性或可能引起焦虑的数据？如果有，请说明原因。如果数据集与人员无关，可跳过本节其余问题。

数据集包含网络爬取内容，这类内容可能在各种语言中过度呈现色情材料（Kreutzer et al., 2022）。尽管已应用预处理技术来减轻冒犯性内容，但网络来源数据的异质性和规模使得彻底过滤极具挑战性，因此几乎不可能识别所有成人内容而不陷入过度过滤的情况，这可能会对特定人群产生负面影响（Dodge et al., 2021）。

数据集是否识别任何子群体（例如，按年龄、性别）？如果是，请描述这些子群体的识别方式及其在数据集中的分布情况。

数据集未明确识别任何子群体。

是否可以从数据集中直接或间接（即与其他数据结合）识别个人（即一个或多个自然人）？如果可以，请描述如何识别。

数据集中的网络来源实例可能包含网络上公开的个人身份信息（PII），例如姓名、IP地址、电子邮件地址和电话号码。虽然通过多个数据点的组合可能间接识别个人，但网络数据的性质和规模使其难以解析此类信息。无论如何，在预处理过程中已努力过滤或匿名化敏感数据，但某些可识别信息仍可能保留在数据集中。

数据集中是否包含任何可能被视为敏感的数据？如果有，请提供说明。

由于数据集包含网络来源内容和其他公开可用文档，实例可能会无意中泄露财务信息、健康相关细节或政府身份证明形式，例如社会安全号码（Subramani et al., 2023），特别是当内容来源于监管较少的来源或用户生成平台时。

收集过程

数据是如何收集的？

本数据集由多个来源组合构成，其获取方法可分为三类：

经过一定预处理、在宽松许可下可用的网络来源数据集（例如Common Crawl）。
特定领域或特定语言的原始爬取数据，均遵守robots.txt协议（例如西班牙语爬取数据）。
通过合作者、数据提供商（通过法律转让协议）或开源项目手动整理的数据（例如CATalog）。

使用了哪些机制或程序来收集数据？这些机制或程序是如何验证的？

根据前面定义的三类来源，各类别使用的机制如下：

直接公开下载。验证方式：数据完整性测试。
专用爬虫程序。验证方式：软件单元测试和数据完整性测试。
通过FTP、SFTP、API或S3直接下载。验证方式：数据完整性测试。

如果数据集是从更大集合中抽样得到的，采用了什么抽样策略？

抽样策略是使用经过“预处理/清理/标记”部分所述过滤后得到的整个数据集，其特殊性在于对西班牙的共同官方语言（西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语）进行了2倍的上采样（即抽样文档的概率为两倍），对代码文档进行了1/2的下采样（即抽样代码文档的概率为一半，在所有编程语言中均匀分布）。

谁参与了数据收集过程？他们是如何获得报酬的？

数据的提取、过滤和抽样通常由自动化流程完成。运行这些流程所需的代码完全由LangTech数据团队成员开发，或从开源软件中获取。此外，从供应商处获取数据无需支付任何费用。

数据收集的时间范围是什么？该时间范围是否与实例相关数据的创建时间范围一致？如果不一致，请描述实例相关数据的创建时间范围。

数据的获取和处理时间为2023年4月至2024年4月。然而，如前所述，许多数据来自Common Crawl等开放项目，其中包含2014年的数据，因此结束日期（2024年4月）比开始日期更为重要。

是否进行过任何伦理审查流程？如果有，请描述这些审查流程及其结果，并提供任何支持文档的链接或其他访问点。

由于数据大多是公开的且并非特别敏感，因此未进行特定的伦理审查流程。但是，我们设有内部评估团队和偏见团队来监控伦理问题。此外，我们与“人工智能伦理观察站”（OEIAC）和“西班牙人工智能监督局”（AESIA）密切合作，分别从伦理和法律角度对我们开展的流程进行审计。

预处理

是否对数据进行过预处理/清理/标记？如果有，请提供说明。如果没有，可跳过本节其余问题。

文本文档实例未被修改，但网络来源文档基于特定标准从两个维度进行了过滤：

质量：基于不期望的特征（如行数少、句子极短、存在长页脚和页眉、标点符号百分比高），通过CURATE（Palomar-Giner et al., 2024）获得的质量得分低于0.8的文档被过滤掉。
有害或成人内容：来自Colossal OSCAR的文档使用LLM-Datasets（Ostendorff et al., 2024），基于Ungoliant管道（Abadji et al., 2021）提供的语言模型困惑度（“harmful_pp”字段）进行过滤。

除了预处理/清理/标记后的数据，是否还保存了“原始”数据？如果有，请提供“原始”数据的链接或其他访问点。

未保留原始数据。

用于预处理/清理/标记数据的软件是否可用？如果有，请提供链接或其他访问点。

是的，预处理和过滤软件是开源的。CURATE管道用于西班牙语爬取数据和CATalog，Ungoliant管道用于OSCAR项目。

用途

该数据集是否已用于任何任务？如果有，请提供说明。

用于预训练Salamandra模型系列。

该数据集还可用于哪些（其他）任务？

该数据主要可用于预训练其他语言模型，这些模型随后可用于广泛的用例。该数据集还可用于其他任务，如语言模型微调、跨语言自然语言处理任务、机器翻译、特定领域文本生成以及特定语言数据分析。

数据集的构成、收集方式或预处理/清理/标记方式是否可能影响未来的使用？数据集使用者可以采取哪些措施来减轻这些风险或危害？

网络爬取内容中标准语言变体占比过高，这会影响语言模型在少数民族语言上的性能。数据中的语言多样性对于避免偏见至关重要，尤其是在编码非标准方言、防止特定人群被排斥方面。此外，尽管网络爬取数据存在法律不确定性，但我们优先考虑宽松的许可和隐私保护措施，同时认识到大规模数据集中个人身份信息（PII）带来的挑战。我们正在持续努力解决隐私问题，并致力于构建一个更具包容性的语言数据集。

是否存在不应使用该数据集的任务？

分发

数据集是否会分发给创建该数据集的实体以外的第三方？如果是，请提供说明。

数据集不会发布或分发给第三方。本节中省略任何与分发相关的问题。

维护

谁将支持/托管/维护该数据集？

数据集将由巴塞罗那超级计算中心（BSC）的语言技术部门（LangTech）托管。该团队将确保定期更新，并监控数据集在其负责的来源中与内容完整性、法律合规性和偏见相关的任何问题。

如何联系数据集的所有者/管理者/维护者？

可通过电子邮件langtech@bsc.es联系数据所有者。

数据集是否会更新？

数据集不会更新。

如果数据集涉及人员，与实例相关的数据的保留是否有适用限制？如果有，请描述这些限制以及如何执行。

除了网络来源内容中公开可用的数据外，数据集不保留可能直接识别个人的敏感数据。由于网络数据的庞大数量和多样性，无法逐一个人通知或管理数据保留。然而，我们通过预处理和过滤来删除可识别或有害内容，努力降低与敏感信息相关的风险。尽管采取了这些措施，我们仍保持警惕，以应对潜在的隐私和伦理问题。

旧版本的数据集是否会继续得到支持/托管/维护？如果是，请描述如何支持。如果不是，请描述如何将其废弃情况告知数据集使用者。

由于数据集不会更新，因此只保留最终版本。

如果其他人想要扩展/增强/基于数据集进行构建/为数据集做贡献，是否有相应的机制？

数据集不接受外部贡献。

评估

评估采用语言模型评估工具包（Language Model Evaluation Harness）进行（Gao et al., 2024）。我们的评估任务集来源于SpanishBench、CatalanBench、BasqueBench和GalicianBench。我们还使用了LM Evaluation Harness中已有的英语任务。这些基准测试包含了新的和现有的任务及数据集。在以下表格中，我们选取了部分评估数据集的结果，这些数据集代表了模型在这些基准测试中各类任务上的性能表现。

我们仅使用那些由人工生成、人工翻译，或有强大人工参与的任务（即机器翻译后经专业修订，或机器生成后经人工修订和标注）。这就是不同语言所报告的任务数量存在差异的原因。随着更多符合这些要求的任务发布，我们将更新所呈现的结果。我们还计划将评估扩展到其他语言，前提是相关数据集符合我们的质量标准。

在实施评估的过程中，我们观察到一系列在复现和解释所呈现结果时值得考虑的问题。这些问题包括：在某些任务中，性能会因所使用的transformers库版本不同，以及加载模型时是否使用张量并行（tensor parallelism）而产生约1.5%的差异。在实施现有任务时，我们会对数据集、工具包任务本身以及模型在评估过程中看到的输入类型进行全面的质量评估。我们的实现（参见上述链接）解决了多个现有问题，例如数据集和提示词中的错误，以及缺乏预处理等。这一切意味着，如果使用其他工具包实现，结果将会有所不同，并且可能会因复现设置的不同而略有差异。

需要注意的是，这些结果受到当前所有黄金标准评估方法固有缺陷的影响，这些数字并不能完全代表模型的能力和潜力。因此，我们建议在阅读和解释结果时保持谨慎。

与其他基线模型的完整结果对比、关于模型在各任务上的性能及其影响的讨论，以及任务实施过程中问题解决的细节，将很快在技术报告中公布。

以下报告的所有结果均基于5-shot设置。

西班牙语

类别	任务	指标	结果
常识推理	xstorycloze_es	acc	64.92
自然语言推理（NLI）	wnli_es	acc	54.93
自然语言推理（NLI）	xnli_es	acc	44.98
释义	paws_es	acc	52.05
问答（QA）	xquad_es	acc	54.32
翻译	flores_es	bleu	11.46

加泰罗尼亚语

类别	任务	指标	结果
常识推理	copa_ca	acc	68.80
常识推理	xstorycloze_ca	acc	65.72
自然语言推理（NLI）	wnli_ca	acc	56.34
自然语言推理（NLI）	xnli_ca	acc	48.07
释义	parafraseja	acc	58.55
释义	paws_ca	acc	55.15
问答（QA）	arc_ca_easy	acc	54.76
	arc_ca_challenge	acc	30.55
	openbookqa_ca	acc	27.40
	piqa_ca	acc	62.89
	siqa_ca	acc	41.91
翻译	flores_ca	bleu	14.70

巴斯克语

类别	任务	指标	结果
常识推理	xcopa_eu	acc	55.60
常识推理	xstorycloze_eu	acc	57.64
自然语言推理（NLI）	wnli_eu	acc	56.34
自然语言推理（NLI）	xnli_eu	acc	39.78
问答（QA）	eus_exams	acc	23.72
	eus_proficiency	acc	23.37
	eus_trivia	acc	27.58
阅读理解	eus_reading	acc	27.84
翻译	flores_eu	bleu	3.58

加利西亚语

类别	任务	指标	结果
释义	parafrases_gl	acc	54.08
释义	paws_gl	acc	53.30
问答（QA）	openbookqa_gl	acc	30.80
翻译	flores_gl	bleu	12.86

英语

类别	任务	指标	结果
常识推理	copa	acc	83.00
常识推理	xstorycloze_en	acc	73.06
自然语言推理（NLI）	wnli	acc	56.34
自然语言推理（NLI）	xnli_en	acc	47.35
释义	paws *	acc	55.95
问答（QA）	arc_easy	acc	74.07
	arc_challenge	acc	37.63
	openbookqa	acc	28.00
	piqa	acc	74.86
	social_iqa	acc	46.62
	squad_en **	acc	44.38

* 当前LM Evaluation Harness的实现缺乏正确的预处理。这些结果是在经过适当预处理后获得的。

** 此任务尚未在官方工具包中提供，我们希望尽快添加。

伦理考量与局限性

我们通过不同基准测试，考察了本模型中存在的不良社会偏见和认知偏见。针对社会偏见，我们使用BBQ数据集（Parrish et al., 2022）的原始英文版本以及Regard数据集（Sheng et al., 2019）进行性能测试。结果显示，模型在模糊语境和明确语境下的准确率均不理想，这表明模型存在社会偏见，需要在后期训练阶段加以解决。

我们的认知偏见分析主要关注零样本设置下的位置效应和少样本设置下的多数类偏见。对于位置效应，我们利用了ARC多项选择题数据集（Clark et al., 2018）。观察到中等到强甚至极强的首因效应，即模型倾向于选择答案列表中靠前的选项。在少样本设置下，我们使用SST-2数据集（Socher et al., 2013）来衡量多数类效应的影响。检测到中等程度的效应，这意味着输出可能会受到提示的影响。

我们对这些偏见的分析并非详尽无遗，其局限性在于训练数据中所有语言的适当资源相对稀缺。我们计划在未来的工作中逐步扩展和深化我们的分析。

需要强调的是，这些结果对于一个尚未经过指令微调或对齐的预训练模型而言是可以预期的。进行这些测试是为了揭示模型可能包含的偏见。我们强烈建议开发者将这些偏见纳入考量，并针对其特定的模型应用场景进行安全测试和调优。

补充信息

作者

巴塞罗那超级计算中心语言技术部门。

联系方式

如需更多信息，请发送电子邮件至langtech@bsc.es。

版权

资金支持

本工作由加泰罗尼亚政府通过Aina Project推动并资助。

本工作由“数字转型与公共职能部”资助——由欧盟“下一代欧盟”计划资助，属于ILENIA Project框架，参考编号为2022/TL22/00215337。

致谢

本项目的顺利开展得益于众多团队和机构的贡献，主要体现在数据提供、知识传递及技术支持等方面。

在加泰罗尼亚地区，多家机构参与了本项目。我们在此感谢Òmnium Cultural、Parlament de Catalunya、Institut d'Estudis Aranesos、Racó Català、Vilaweb、ACN、Nació Digital、El món和Aquí Berguedà。

在国家层面，我们特别感谢ILENIA项目的合作伙伴：CENID、HiTZ和CiTIUS的参与。同时，我们也向西班牙参议院和众议院、Fundación Dialnet、Fundación Elcano以及拉斯帕尔马斯大学的“智能系统与数值应用工程研究所（SIANI）”致以诚挚的谢意。

在国际层面，我们感谢威尔士政府、DFKI、Occiglot项目（尤其要感谢Malte Ostendorff）以及Common Crawl基金会（尤其要感谢Pedro Ortiz）的合作。我们还要特别感谢NVIDIA团队，我们与他们定期举行会议，尤其要感谢：Ignacio Sarasua、Adam Henryk Grzywaczewski、Oleg Sudakov、Sergio Perez、Miguel Martinez、Felipes Soares和Meriem Bendris。在整个项目过程中，他们始终如一的支持让我们尤为感激。

他们的宝贵付出为本研究工作的发展起到了关键作用。

免责声明

请注意，本模型可能包含偏见或其他非预期的偏差。当第三方基于本模型部署系统、提供服务或自行使用本模型时，其有责任减轻相关风险，并确保遵守适用法规，包括那些规范人工智能使用的法规。

巴塞罗那超级计算中心作为本模型的所有者和创建者，不对第三方使用本模型所产生的任何结果承担责任。

引用

技术报告和论文即将发布。

许可协议

Apache License, Version 2.0

模型索引

模型	基础版	指令版
2B	链接	链接
7B	链接	链接
40B	开发中	开发中

开放思维

import argparse

import torch
from openmind import is_torch_npu_available
from transformers import AutoTokenizer, AutoModelForCausalLM


def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default=None,
    )

    args = parser.parse_args()
    return args


def main():
    args = parse_args()
    if args.model_name_or_path:
        model_path = args.model_name_or_path
    else:
        model_path = "../"

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"

    tokenizer = AutoTokenizer.from_pretrained("../")
    model = AutoModelForCausalLM.from_pretrained("../").to(device)

    input_ids = tokenizer("Gra", return_tensors='pt').to(model.device)["input_ids"]
    output = model.generate(input_ids, max_new_tokens=48, do_sample=True, temperature=0.7)
    print(tokenizer.decode(output[0]))


if __name__ == "__main__":
    main()

Salamandra 模型卡片

要查看其他 Salamandra 版本的模型卡片，请参考模型索引。

整个 Salamandra 系列均基于宽松的 Apache 2.0 许可证发布。除开放权重外，所有训练脚本和配置文件均在此 GitHub 仓库中公开。

模型详情

描述

基于 Transformer 的仅解码器语言模型，从零开始在7.8万亿 tokens 的高度精选数据上进行预训练。预训练语料包含35种欧洲语言的文本及代码。

超参数

各模型的完整超参数列表可在此处找到。

架构


总参数数量	2,253,490,176
嵌入层参数数量	524,288,000
层数	24
隐藏层大小	2,048
注意力头数	16
上下文长度	8,192
词汇表大小	256,000
精度	bfloat16
嵌入类型	RoPE
激活函数	SwiGLU
层归一化	RMS Norm
Flash 注意力	✅
分组查询注意力	❌
查询组数	N/A

预期用途

直接使用

超出范围的使用场景

硬件和软件

训练框架

预训练使用了 NVIDIA 的 NeMo Framework，该框架利用 PyTorch Lightning 在高度分布式环境中实现高效的模型训练。

指令微调版本通过 FastChat 生成。

计算基础设施

所有模型均在 MareNostrum 5 上进行训练，这是一台由巴塞罗那超级计算中心托管和运营的准百亿亿次 EuroHPC 超级计算机。

加速分区由 1,120 个节点组成，具体规格如下：

4 块 Nvidia Hopper GPU，每块配备 64GB HBM2 内存
2 颗 Intel Sapphire Rapids 8460Y+ 处理器，主频 2.3GHz，每颗 32 核（共 64 核）
4 个 NDR200（每节点带宽 800Gb/s）
512GB 主内存（DDR5）
460GB NVMe 存储

模型	节点数	GPU 数
2B	64	256
7B	128	512
40B	256 / 512	1,024 / 2,048

使用方法

本节提供了使用多种方法进行推理的示例。

推理

您将找到不同的推理运行技术，包括 Huggingface 的 Text Generation Pipeline、多 GPU 配置以及用于可扩展高效生成的 vLLM。

使用 Huggingface 的 Text Generation Pipeline 进行推理

Huggingface Text Generation Pipeline 提供了一种简单直接的方式来使用 Salamandra-2b 模型进行推理。

pip install transformers torch accelerate sentencepiece protobuf

显示代码

from transformers import pipeline, set_seed

model_id = "BSC-LT/salamandra-2b"

# Sample prompts
prompts = [
    "Todo el mundo sabe que vivir en Barcelona es",
    "¿Pueblo o ciudad? Una ventaja de vivir en la ciudad es que hay muchas oportunidades de ocio y empleo, así como una gran diversidad de comercios para todos los gustos. Sin embargo, las ciudades suelen ser ",
    "Llegir ens proporciona",
    "What I find more fascinating about languages is that",
    "La vie peut être",
    "The future of AI is",
]

# Create the pipeline
generator = pipeline("text-generation", model_id, device_map="auto")
generation_args = {
  "temperature": 0.1,
  "top_p": 0.95,
  "max_new_tokens": 25,
  "repetition_penalty": 1.2,
  "do_sample": True
}

# Fix the seed
set_seed(1)
# Generate texts
outputs = generator(prompts, **generation_args)
# Print outputs
for output in outputs:
  print(output[0]["generated_text"])

使用单/多 GPU 进行推理

本节提供了一个使用 Huggingface 的 AutoModel 类运行推理的简单示例。

pip install transformers torch accelerate sentencepiece protobuf

显示代码

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model_id = "BSC-LT/salamandra-2b"

# Input text
text = "El mercat del barri és"

# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
# Load the model
model = AutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
  torch_dtype=torch.bfloat16
)

generation_args = {
  "temperature": 0.1,
  "top_p": 0.95,
  "max_new_tokens": 25,
  "repetition_penalty": 1.2,
  "do_sample": True
}

inputs = tokenizer(text, return_tensors="pt")
# Generate texts
output = model.generate(input_ids=inputs["input_ids"].to(model.device), attention_mask=inputs["attention_mask"], **generation_args)
# Print outputs
print(tokenizer.decode(output[0], skip_special_tokens=True))

使用 vLLM 进行推理

vLLM 是一个高效的推理库，可实现更快、更具扩展性的文本生成。

pip install vllm

显示代码

from vllm import LLM, SamplingParams

model_id = "BSC-LT/salamandra-2b"

# Sample prompts
prompts = [
    "Todo el mundo sabe que vivir en Barcelona es",
    "¿Pueblo o ciudad? Una ventaja de vivir en la ciudad es que hay muchas oportunidades de ocio y empleo, así como una gran diversidad de comercios para todos los gustos. Sin embargo, las ciudades suelen ser ",
    "Llegir ens proporciona",
    "What I find more fascinating about languages is that",
    "La vie peut être",
    "The future of AI is",
]
# Create a sampling params object
sampling_params = SamplingParams(
  temperature=0.1,
  top_p=0.95,
  seed=1,
  max_tokens=25,
  repetition_penalty=1.2)

# Create an LLM
llm = LLM(model=model_id)
# Generate texts
outputs = llm.generate(prompts, sampling_params)
# Print outputs
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

数据

预训练数据

语言分布

欢迎点击下方展开按钮查看完整数据源列表。

数据源

数据集	语言	来源
Parlamint corpus	at, bg, cz, dk, ee, es, es-ga, fi, fr, gb, gr, hr, hu, it, lv, nl, no, pl, pt, rs, se, si	Erjavec et al., 2021
Bulgarian National Corpus	bg	链接
Colossal OSCAR 1.0	bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk	Brack et al., 2024
Wikimedia dumps	bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, pl, pt, ro, sh, sk, sl, sr, uk	链接
OpenSubtitlesv2016	bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, gl, hr, it, lt, lv, nl, no, pl, pt, ro, sk, sl, sr, sv, uk	Lison & Tiedemann, 2016
MaCoCu web corpus	bg, ca, el, hr, mt, sl, sr, uk	Bañón et al., 2022
EurLEX-Resources	bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv	链接
MC4-Legal	bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv	链接
CURLICAT Corpus	bg, hr, hu, pl, ro, sk, sl	Váradi et al., 2022
CATalog	ca	Palomar-Giner et al., 2024
Spanish Crawling	ca, es, eu, gl	相关西班牙网站爬取
Starcoder	code	Li et al., 2023
SYN v9: large corpus of written Czech	cs	Křen et al., 2021
Welsh-GOV	cy	从链接爬取
DaNewsroom	da	Varab & Schluter, 2020
Danish GigaWord	da	Strømberg-Derczynski et al., 2021
DK-CLARIN Reference Corpus of General Danish	da	链接
The Danish Parliament Corpus 2009 - 2017, v1	da	Hansen, 2018
DeWaC	de	链接
Open Legal Data - German court decisions and laws	de	Ostendorff et al., 2020
Greek Legal Code	el	Papaloukas et al., 2021
Greek Web Corpus	el	Outsios et al., 2018
Auxiliary Mathematics Problems and Solutions (AMPS) dataset	en	Hendrycks et al., 2021
BIGPATENT	en	Sharma et al., 2019
FineWeb-Edu (350BT subset)	en	Penedo et al., 2024
peS2o	en	Soldaini & Lo, 2023
PG-19	en	Rae et al., 2019
Pile of Law (selected subsets)	en	Henderson* et al., 2022
proof-pile	en	链接
RedPajama-Data T1 (StackExchange subset)	en	Computer, 2023
The Pile (PhilPapers subset)	en	Gao et al., 2021
Biomedical	es	内部生成的生物医学数据集：Wikipedia LS、Pubmed、MeSpEn、专利、临床病例、医学爬虫
HPLTDatasets v1 - Spanish	es	de Gibert et al., 2024
Legal	es	内部生成的法律数据集：BOE、BORME、参议院、众议院、西班牙法院命令、DOGC
Scientific	es	内部生成的科学数据集：Dialnet、Scielo、CSIC、TDX、BSC、UCM
Spanish Legal Domain Corpora	es	Gutiérrez-Fandiño et al., 2021
Estonian National Corpus 2021	et	Koppel & Kallas, 2022
Estonian Reference Corpus	et	链接
EusCrawl (w/o Wikipedia or NC-licenses)	eu	Artetxe et al., 2022
Latxa Corpus v1.1	eu	Etxaniz et al., 2024 链接
Aya Dataset (w/o Evaluation Suite)	eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk	Singh et al., 2024
Yle Finnish News Archive	fi	链接
CaBeRnet: a New French Balanced Reference Corpus	fr	Popa-Fabre et al., 2020
French Public Domain Books	fr	链接
French Public Domain Newspapers	fr	链接
Irish Universal Dependencies	ga	链接
The Gaois bilingual corpus of English-Irish legislation (Irish legislation)	ga	链接
CorpusNÓS	gl	de-Dios-Flores et al., 2024
Croatian web corpus hrWaC 2.1	hr	Ljubešić & Klubička, 2014
ITWaC	it	链接
Corpus of State-related content from the Latvian Web (Processed)	lv	链接
Korpus Malti	mt	Micallef et al., 2022
SoNaR Corpus NC 1.2	nl	链接
Norwegian Colossal Corpus	nn, no	Kummervold et al., 2021
Occitan Corpus	oc	由IEA提供
NKJP-PodkorpusMilionowy-1.2 (National Corpus of Polish)	pl	Lewandowska-Tomaszczyk et al., 2013
Polish Parliamentary Corpus / Korpus Dyskursu Parlamentarnego	pl	Ogrodniczuk, 2018
Brazilian Portuguese Web as Corpus	pt	Wagner Filho et al., 2018
ParlamentoPT	pt	Rodrigues et al., 2023
MARCELL Romanian legislative subcorpus v2	ro	链接
Korpus slovenských právnych predpisov v1.9	sk	链接
od-justice 2.0	sk	链接
Corpus of academic Slovene KAS 2.0	sl	Žagar et al., 2022
slWaC web corpus	sl	Erjavec et al., 2015
SrpKorSubset (news, legal, academic, conversation, literary)	sr	链接
The Swedish Culturomics Gigaword Corpus	sv	Rødven-Eide, 2016
Corpus of laws and legal acts of Ukraine	uk	链接

如需查阅包含相应许可证的数据摘要文件，请发送电子邮件至ipr@bsc.es。

参考文献

Abadji, J., Suárez, P. J. O., Romary, L., & Sagot, B. (2021). Ungoliant: 一个用于生成超大规模多语言网络语料库的优化管道 (H. Lüngen, M. Kupietz, P. Bański, A. Barbaresi, S. Clematide, & I. Pisetta 编; 第 1–9 页). Leibniz-Institut für Deutsche Sprache. 链接
Artetxe, M., Aldabe, I., Agerri, R., Perez-de-Viñaspre, O., & Soroa, A. (2022). 语料库质量对低资源语言真的重要吗？
Bañón, M., Esplà-Gomis, M., Forcada, M. L., García-Romero, C., Kuzman, T., Ljubešić, N., van Noord, R., Sempere, L. P., Ramírez-Sánchez, G., Rupnik, P., Suchomel, V., Toral, A., van der Werff, T., & Zaragoza, J. (2022). MaCoCu: 大规模单语和双语数据的收集与整理：聚焦资源不足语言. 第 23 届欧洲机器翻译协会年会论文集, 303–304. 链接
Brack, M., Ostendorff, M., Suarez, P. O., Saiz, J. J., Castilla, I. L., Palomar-Giner, J., Shvets, A., Schramowski, P., Rehm, G., Villegas, M., & Kersting, K. (2024). Community OSCAR: 多语言网络数据的社区协作成果. 链接
Computer, T. (2023). RedPajama: 重现 LLaMA 训练数据集的开源方案 [计算机软件]. 链接
de Gibert, O., Nail, G., Arefyev, N., Bañón, M., van der Linde, J., Ji, S., Zaragoza-Bernabeu, J., Aulamo, M., Ramírez-Sánchez, G., Kutuzov, A., Pyysalo, S., Oepen, S., & Tiedemann, J. (2024). 一个面向高性能语言技术的新型大规模多语言数据集 (arXiv:2403.14009). arXiv. 链接
Dodge, J., Sap, M., Marasović, A., Agnew, W., Ilharco, G., Groeneveld, D., Mitchell, M., & Gardner, M. (2021). 大型网络文本语料库文档化：以 Colossal Clean Crawled Corpus 为例. In M.-F. Moens, X. Huang, L. Specia, & S. W. Yih (编), 2021 年自然语言处理经验方法会议论文集 (第 1286–1305 页). 计算语言学协会. 链接
Erjavec, T., Ljubešić, N., & Logar, N. (2015). 斯洛文尼亚网络语料库 slWaC. Informatica (Slovenia), 39, 35–42.
Erjavec, T., Ogrodniczuk, M., Osenova, P., Ljubešić, N., Simov, K., Grigorova, V., Rudolf, M., Pančur, A., Kopp, M., Barkarson, S., Steingrímsson, S. hór, van der Pol, H., Depoorter, G., de Does, J., Jongejan, B., Haltrup Hansen, D., Navarretta, C., Calzada Pérez, M., de Macedo, L. D., … Rayson, P. (2021). 议会辩论的多语言可比标注语料库 ParlaMint.ana 2.1. 链接
Etxaniz, J., Sainz, O., Perez, N., Aldabe, I., Rigau, G., Agirre, E., Ormazabal, A., Artetxe, M., & Soroa, A. (2024). Latxa: 一个面向巴斯克语的开源语言模型与评估套件. [链接] (https://arxiv.org/abs/2403.20266)
Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., Foster, C., Phang, J., He, H., Thite, A., Nabeshima, N., Presser, S., & Leahy, C. (2021). The Pile: 一个用于语言建模的 800GB 多样化文本数据集. CoRR, abs/2101.00027. 链接
Gutiérrez-Fandiño, A., Armengol-Estapé, J., Gonzalez-Agirre, A., & Villegas, M. (2021). 西班牙法律语言模型与语料库.
Hansen, D. H. (2018). 丹麦议会语料库 2009—2017，v1. 链接
Henderson*, P., Krass*, M. S., Zheng, L., Guha, N., Manning, C. D., Jurafsky, D., & Ho, D. E. (2022). Pile of Law: 从法律中学习负责任的数据过滤及一个 256GB 开源法律数据集. arXiv. 链接
Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., & Steinhardt, J. (2021). 用 MATH 数据集衡量数学问题解决能力. NeurIPS.
Jansen, T., Tong, Y., Zevallos, V., & Suarez, P. O. (2022). 对质量感到困惑：一种基于困惑度的多语言异构网络数据成人与有害内容检测方法.
Koppel, K., & Kallas, J. (2022). Eesti keele ühendkorpuste sari 2013–2021: Mahukaim eestikeelsete digitekstide kogu. Eesti Rakenduslingvistika Ühingu Aastaraamat Estonian Papers in Applied Linguistics, 18, 207–228. 链接
Křen, M., Cvrček, V., Henyš, J., Hnátková, M., Jelínek, T., Kocek, J., Kováříková, D., Křivan, J., Milička, J., Petkevič, V., Procházka, P., Skoumalová, H., Šindlerová, J., & Škrabal, M. (2021). SYN v9: 大型书面捷克语语料库. 链接
Kreutzer, J., Caswell, I., Wang, L., Wahab, A., van Esch, D., Ulzii-Orshikh, N., Tapo, A., Subramani, N., Sokolov, A., Sikasote, C., Setyawan, M., Sarin, S., Samb, S., Sagot, B., Rivera, C., Rios, A., Papadimitriou, I., Osei, S., Suarez, P. O., … Adeyemi, M. (2022). 质量概览：网络爬取多语言数据集的审计. Transactions of the Association for Computational Linguistics, 10, 50–72. 链接
Kummervold, P. E., De la Rosa, J., Wetjen, F., & Brygfjeld, S. A. (2021). 国家数字图书馆的实施：挪威 Transformer 模型案例. In S. Dobnik & L. Øvrelid (编), 第 23 届北欧计算语言学会议论文集 (NoDaLiDa) (第 20–29 页). 瑞典林雪平大学电子出版社. 链接
Lewandowska-Tomaszczyk, B., Górski, R., Łaziński, M., & Przepiórkowski, A. (2013). 波兰国家语料库 (NKJP). Language use and data analysis. 309–319.
Li, R., Allal, L. B., Zi, Y., Muennighoff, N., Kocetkov, D., Mou, C., Marone, M., Akiki, C., Li, J., Chim, J., Liu, Q., Zheltonozhskii, E., Zhuo, T. Y., Wang, T., Dehaene, O., Davaadorj, M., Lamy-Poirier, J., Monteiro, J., Shliazhko, O., … Vries, H. de. (2023). StarCoder: 愿源代码与你同在！
Lison, P., & Tiedemann, J. (2016). OpenSubtitles2016: 从电影和电视字幕中提取大型平行语料库. In N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (编), 第十届国际语言资源与评估会议论文集 (LREC’16) (第 923–929 页). 欧洲语言资源协会 (ELRA). 链接
Ljubešić, N., & Klubička, F. (2014). Bs,hr,srWaC - 波斯尼亚语、克罗地亚语和塞尔维亚语网络语料库. In F. Bildhauer & R. Schäfer (编), 第 9 届网络作为语料库研讨会论文集 (WaC-9) (第 29–35 页). 计算语言学协会. 链接
Micallef, K., Gatt, A., Tanti, M., van der Plas, L., & Borg, C. (2022). 低资源语言预训练数据的质量与数量：马耳他语新语料库与 BERT 模型. 第三届低资源自然语言处理深度学习研讨会论文集, 90–101. 链接
Ogrodniczuk, M. (2018). 波兰议会语料库. 链接
Ostendorff, M., Blume, T., & Ostendorff, S. (2020). 迈向开放的法律信息平台. 2020 年 ACM/IEEE 数字图书馆联合会议论文集, 385–388. 链接
Ostendorff, M., Suarez, P. O., Lage, L. F., & Rehm, G. (2024). LLM-Datasets: 大型语言模型预训练数据集的开放框架. 第一届语言建模会议. 链接
Outsios, S., Skianis, K., Meladianos, P., Xypolopoulos, C., & Vazirgiannis, M. (2018). 大规模希腊语网络内容的词嵌入. arXiv 预印本 arXiv:1810.06694.
Palomar-Giner, J., Saiz, J. J., Espuña, F., Mina, M., Da Dalt, S., Llop, J., Ostendorff, M., Ortiz Suarez, P., Rehm, G., Gonzalez-Agirre, A., & Villegas, M. (2024). A CURATEd CATalog: 为中等资源语言重新思考预训练语料库的提取. In N. Calzolari, M.-Y. Kan, V. Hoste, A. Lenci, S. Sakti, & N. Xue (编), 2024 年计算语言学与语言资源评估联合国际会议论文集 (LREC-COLING 2024) (第 335–349 页). ELRA 与 ICCL. 链接
Papaloukas, C., Chalkidis, I., Athinaios, K., Pantazi, D.-A., & Koubarakis, M. (2021). 希腊立法的多粒度法律主题分类. 2021 年自然法律语言处理研讨会论文集, 63–75. 链接
Popa-Fabre, M., Ortiz Suárez, P. J., Sagot, B., & de la Clergerie, É. (2020). 法国语境化词嵌入与 CaBeRnet：一个新的法语平衡参考语料库. 第 8 届大型语料库管理挑战研讨会论文集, 15–23. 链接
Rae, J. W., Potapenko, A., Jayakumar, S. M., Hillier, C., & Lillicrap, T. P. (2019). 用于长序列建模的压缩 Transformer. arXiv 预印本. 链接
Rodrigues, J., Gomes, L., Silva, J., Branco, A., Santos, R., Cardoso, H. L., & Osório, T. (2023). 用 Transformer Albertina PT-* 推进葡萄牙语的神经编码.
Rødven-Eide, S. (2016). 瑞典文化组学千兆词 corpusThe Swedish Culturomics Gigaword Corpus [数据集]. Språkbanken Text. 链接
Sharma, E., Li, C., & Wang, L. (2019). BIGPATENT: 一个用于抽象和连贯摘要的大规模数据集. CoRR, abs/1906.03741. 链接
Soldaini, L., & Lo, K. (2023). peS2o（在 S2ORC 上高效预训练）数据集. Allen Institute for AI.
Strømberg-Derczynski, L., Ciosici, M., Baglini, R., Christiansen, M. H., Dalsgaard, J. A., Fusaroli, R., Henrichsen, P. J., Hvingelby, R., Kirkedal, A., Kjeldsen, A. S., Ladefoged, C., Nielsen, F. Å., Madsen, J., Petersen, M. L., Rystrøm, J. H., & Varab, D. (2021). 丹麦千兆词语料库. 第 23 届北欧计算语言学会议论文集 (NoDaLiDa), 413–421. 链接
Subramani, N., Luccioni, S., Dodge, J., & Mitchell, M. (2023). 检测训练语料库中的个人信息：一项分析. 208–220. 链接
Varab, D., & Schluter, N. (2020). DaNewsroom: 一个大规模丹麦语摘要数据集. 第 12 届语言资源与评估会议论文集, 6731–6739. 链接
Váradi, T., Nyéki, B., Koeva, S., Tadić, M., Štefanec, V., Ogrodniczuk, M., Nitoń, B., Pezik, P., Barbu Mititelu, V., Irimia, E., Mitrofan, M., Tufi\textcommabelows, D., Garabík, R., Krek, S., & Repar, A. (2022). 介绍 CURLICAT 语料库：来自精选来源的七种语言领域特定标注语料库. In N. Calzolari, F. Béchet, P. Blache, K. Choukri, C. Cieri, T. Declerck, S. Goggi, H. Isahara, B. Maegaard, J. Mariani, H. Mazo, J. Odijk, & S. Piperidis (编), 第十三届语言资源与评估会议论文集 (第 100–108 页). 欧洲语言资源协会. 链接
Wagner Filho, J. A., Wilkens, R., Idiart, M., & Villavicencio, A. (2018). The brwac corpus: 巴西葡萄牙语的新开放资源. 第十一届国际语言资源与评估会议论文集 (LREC 2018).
Žagar, A., Kavaš, M., Robnik-Šikonja, M., Erjavec, T., Fišer, D., Ljubešić, N., Ferme, M., Borovič, M., Boškovič, B., Ojsteršek, M., & Hrovat, G. (2022). 斯洛文尼亚学术语料库 KAS 2.0. 链接
Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, and Samuel Bowman. 2022. BBQ: 一个手动构建的问答偏见基准. In Findings of the Association for Computational Linguistics: ACL 2022, pages 2086–2105, Dublin, Ireland. Association for Computational Linguistics.
Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. 2019. The Woman Worked as a Babysitter: On Biases in Language Generation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3407–3412, Hong Kong, China. Association for Computational Linguistics.
Clark, P., Cowhey, I., Etzioni, O., Khot, T., Sabharwal, A., Schoenick, C., & Tafjord, O. (2018). Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge. arXiv:1803. 05457v1.
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher Potts. 2013. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, pages 1631–1642, Seattle, Washington, USA. Association for Computational Linguistics.
Penedo, G., Kydlíček, H., allal, L. B., Lozhkov, A., Mitchell, M., Raffel, C., Von Werra, L., & Wolf, T. (2024). The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale (arXiv:2406.17557). arXiv. http://arxiv.org/abs/2406.17557
Singh, S., Vargus, F., Dsouza, D., Karlsson, B. F., Mahendiran, A., Ko, W.-Y., Shandilya, H., Patel, J., Mataciunas, D., OMahony, L., Zhang, M., Hettiarachchi, R., Wilson, J., Machado, M., Moura, L. S., Krzemiński, D., Fadaei, H., Ergün, I., Okoh, I., … Hooker, S. (2024). Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning (arXiv:2402.06619). arXiv. http://arxiv.org/abs/2402.06619

该模型训练了 3 个 epoch，最后还有两轮各 0.3B 的更高质量 tokens，这意味着预训练期间看到的总 token 数约为 7.8 万亿 tokens。

我们按照 (Gebru et al., 2021) 定义的最佳实践，提供了一个详细的数据表部分。

数据表

动机

创建该数据集的目的是什么？是否有特定的任务？是否有需要填补的特定空白？请提供描述。

谁创建了该数据集（例如，哪个团队、研究小组）以及代表哪个实体（例如，公司、机构、组织）？

然而，如果没有大量合作者、合作伙伴和公共机构的协作，数据集的创建是不可能的，这些在致谢部分有详细说明。

谁资助了数据集的创建？如果有相关资助，请提供资助者名称以及资助名称和编号。

这项工作/研究由加泰罗尼亚政府通过 Aina 项目推动和资助。

构成

该数据集完全由多种语言的文本文档组成。具体而言，数据主要来源于以下数据库和存储库：

Common Crawl： 由 Common Crawl 非营利组织运营的保存网站数据的存储库。它每月更新，根据 CC0 1.0 公共领域许可进行分发。
GitHub： 允许开发人员创建、存储、管理和共享其代码的社区平台。存储库经过爬取，然后根据其原始许可进行分发，这些许可可能从宽松许可到非商业许可不等。
Wikimedia： 保存由维基媒体基金会管理的集合数据库的数据库，包括 Wikipedia、Wikibooks、Wikinews、Wikiquote、Wikisource 和 Wikivoyage。它每月更新，根据知识共享署名 - 相同方式共享许可 4.0 进行分发。
EurLex： 保存欧盟法律文件集合的存储库，有欧盟所有 24 种官方语言版本，由欧盟出版物办公室运营。它每日更新，根据知识共享署名 4.0 国际许可进行分发。
其他存储库： 在获得许可的情况下，对特定存储库进行了爬取，以获取特定领域的语料库，包括学术、法律和报纸存储库。

我们在本节末尾提供了完整的数据集来源列表。

总共有多少个实例（如果适用，每种类型有多少）？

每个实例由什么数据组成？“原始”数据（例如，未处理的文本或图像）还是特征？无论哪种情况，请提供描述。

每个实例均包含经过去重、语言识别和特定来源过滤处理的文本文档。部分文档需要通过光学字符识别（OCR）从PDF等非文本格式中提取文本。

每个实例是否关联有标签或目标？如果有，请提供说明。

单个实例中是否存在信息缺失？如果有，请说明缺失原因（例如，因无法获取）。这不包括有意移除的信息，但可能包括例如编辑过的文本。

实例中无重要信息缺失。

实例之间的关系是否明确（例如，用户的电影评分、社交网络链接）？如果是，请描述这些关系是如何明确的。

实例通过共享元数据（如来源和语言标识符）建立关联。

是否有推荐的数据拆分方式（例如，训练集、开发/验证集、测试集）？如果有，请描述这些拆分方式及其背后的理由。

数据集随机拆分为训练集、验证集和测试集。

数据集中是否存在错误、噪声来源或冗余？如果有，请提供说明。

数据集是独立的，不依赖外部资源。

数据集中不包含机密数据。

数据集是否识别任何子群体（例如，按年龄、性别）？如果是，请描述这些子群体的识别方式及其在数据集中的分布情况。

数据集未明确识别任何子群体。

是否可以从数据集中直接或间接（即与其他数据结合）识别个人（即一个或多个自然人）？如果可以，请描述如何识别。

数据集中是否包含任何可能被视为敏感的数据？如果有，请提供说明。

收集过程

数据是如何收集的？

本数据集由多个来源组合构成，其获取方法可分为三类：

经过一定预处理、在宽松许可下可用的网络来源数据集（例如Common Crawl）。
特定领域或特定语言的原始爬取数据，均遵守robots.txt协议（例如西班牙语爬取数据）。
通过合作者、数据提供商（通过法律转让协议）或开源项目手动整理的数据（例如CATalog）。

使用了哪些机制或程序来收集数据？这些机制或程序是如何验证的？

根据前面定义的三类来源，各类别使用的机制如下：

直接公开下载。验证方式：数据完整性测试。
专用爬虫程序。验证方式：软件单元测试和数据完整性测试。
通过FTP、SFTP、API或S3直接下载。验证方式：数据完整性测试。

如果数据集是从更大集合中抽样得到的，采用了什么抽样策略？

谁参与了数据收集过程？他们是如何获得报酬的？

数据收集的时间范围是什么？该时间范围是否与实例相关数据的创建时间范围一致？如果不一致，请描述实例相关数据的创建时间范围。

是否进行过任何伦理审查流程？如果有，请描述这些审查流程及其结果，并提供任何支持文档的链接或其他访问点。

预处理

是否对数据进行过预处理/清理/标记？如果有，请提供说明。如果没有，可跳过本节其余问题。

文本文档实例未被修改，但网络来源文档基于特定标准从两个维度进行了过滤：

质量：基于不期望的特征（如行数少、句子极短、存在长页脚和页眉、标点符号百分比高），通过CURATE（Palomar-Giner et al., 2024）获得的质量得分低于0.8的文档被过滤掉。
有害或成人内容：来自Colossal OSCAR的文档使用LLM-Datasets（Ostendorff et al., 2024），基于Ungoliant管道（Abadji et al., 2021）提供的语言模型困惑度（“harmful_pp”字段）进行过滤。

除了预处理/清理/标记后的数据，是否还保存了“原始”数据？如果有，请提供“原始”数据的链接或其他访问点。

未保留原始数据。

用于预处理/清理/标记数据的软件是否可用？如果有，请提供链接或其他访问点。

是的，预处理和过滤软件是开源的。CURATE管道用于西班牙语爬取数据和CATalog，Ungoliant管道用于OSCAR项目。

用途

该数据集是否已用于任何任务？如果有，请提供说明。

用于预训练Salamandra模型系列。

该数据集还可用于哪些（其他）任务？

数据集的构成、收集方式或预处理/清理/标记方式是否可能影响未来的使用？数据集使用者可以采取哪些措施来减轻这些风险或危害？

是否存在不应使用该数据集的任务？

分发

数据集是否会分发给创建该数据集的实体以外的第三方？如果是，请提供说明。

数据集不会发布或分发给第三方。本节中省略任何与分发相关的问题。

维护

谁将支持/托管/维护该数据集？

如何联系数据集的所有者/管理者/维护者？

可通过电子邮件langtech@bsc.es联系数据所有者。

数据集是否会更新？

数据集不会更新。

如果数据集涉及人员，与实例相关的数据的保留是否有适用限制？如果有，请描述这些限制以及如何执行。

旧版本的数据集是否会继续得到支持/托管/维护？如果是，请描述如何支持。如果不是，请描述如何将其废弃情况告知数据集使用者。

由于数据集不会更新，因此只保留最终版本。

如果其他人想要扩展/增强/基于数据集进行构建/为数据集做贡献，是否有相应的机制？

数据集不接受外部贡献。

评估

与其他基线模型的完整结果对比、关于模型在各任务上的性能及其影响的讨论，以及任务实施过程中问题解决的细节，将很快在技术报告中公布。

以下报告的所有结果均基于5-shot设置。

西班牙语

类别	任务	指标	结果
常识推理	xstorycloze_es	acc	64.92
自然语言推理（NLI）	wnli_es	acc	54.93
自然语言推理（NLI）	xnli_es	acc	44.98
释义	paws_es	acc	52.05
问答（QA）	xquad_es	acc	54.32
翻译	flores_es	bleu	11.46

加泰罗尼亚语

类别	任务	指标	结果
常识推理	copa_ca	acc	68.80
常识推理	xstorycloze_ca	acc	65.72
自然语言推理（NLI）	wnli_ca	acc	56.34
自然语言推理（NLI）	xnli_ca	acc	48.07
释义	parafraseja	acc	58.55
释义	paws_ca	acc	55.15
问答（QA）	arc_ca_easy	acc	54.76
	arc_ca_challenge	acc	30.55
	openbookqa_ca	acc	27.40
	piqa_ca	acc	62.89
	siqa_ca	acc	41.91
翻译	flores_ca	bleu	14.70

巴斯克语

类别	任务	指标	结果
常识推理	xcopa_eu	acc	55.60
常识推理	xstorycloze_eu	acc	57.64
自然语言推理（NLI）	wnli_eu	acc	56.34
自然语言推理（NLI）	xnli_eu	acc	39.78
问答（QA）	eus_exams	acc	23.72
	eus_proficiency	acc	23.37
	eus_trivia	acc	27.58
阅读理解	eus_reading	acc	27.84
翻译	flores_eu	bleu	3.58

加利西亚语

类别	任务	指标	结果
释义	parafrases_gl	acc	54.08
释义	paws_gl	acc	53.30
问答（QA）	openbookqa_gl	acc	30.80
翻译	flores_gl	bleu	12.86

英语

类别	任务	指标	结果
常识推理	copa	acc	83.00
常识推理	xstorycloze_en	acc	73.06
自然语言推理（NLI）	wnli	acc	56.34
自然语言推理（NLI）	xnli_en	acc	47.35
释义	paws *	acc	55.95
问答（QA）	arc_easy	acc	74.07
	arc_challenge	acc	37.63
	openbookqa	acc	28.00
	piqa	acc	74.86
	social_iqa	acc	46.62
	squad_en **	acc	44.38

* 当前LM Evaluation Harness的实现缺乏正确的预处理。这些结果是在经过适当预处理后获得的。

** 此任务尚未在官方工具包中提供，我们希望尽快添加。

伦理考量与局限性

我们对这些偏见的分析并非详尽无遗，其局限性在于训练数据中所有语言的适当资源相对稀缺。我们计划在未来的工作中逐步扩展和深化我们的分析。

补充信息

作者

巴塞罗那超级计算中心语言技术部门。

联系方式

如需更多信息，请发送电子邮件至langtech@bsc.es。

版权

资金支持

本工作由加泰罗尼亚政府通过Aina Project推动并资助。

本工作由“数字转型与公共职能部”资助——由欧盟“下一代欧盟”计划资助，属于ILENIA Project框架，参考编号为2022/TL22/00215337。

致谢

本项目的顺利开展得益于众多团队和机构的贡献，主要体现在数据提供、知识传递及技术支持等方面。

他们的宝贵付出为本研究工作的发展起到了关键作用。

免责声明

巴塞罗那超级计算中心作为本模型的所有者和创建者，不对第三方使用本模型所产生的任何结果承担责任。

引用

技术报告和论文即将发布。

许可协议

Apache License, Version 2.0

模型索引

模型	基础版	指令版
2B	链接	链接
7B	链接	链接
40B	开发中	开发中