import argparse
import torch
from openmind import is_torch_npu_available
from transformers import AutoTokenizer, AutoModelForCausalLM
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
type=str,
help="Path to model",
default=None,
)
args = parser.parse_args()
return args
def main():
args = parse_args()
if args.model_name_or_path:
model_path = args.model_name_or_path
else:
model_path = "../"
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
tokenizer = AutoTokenizer.from_pretrained("../")
model = AutoModelForCausalLM.from_pretrained("../").to(device)
input_ids = tokenizer("Gra", return_tensors='pt').to(model.device)["input_ids"]
output = model.generate(input_ids, max_new_tokens=48, do_sample=True, temperature=0.7)
print(tokenizer.decode(output[0]))
if __name__ == "__main__":
main()
Salamandra 是一款从零开始预训练的高度多语言模型,提供三种不同参数规模——20亿、70亿和400亿,并分别配有基础版和指令微调版。本模型卡片对应20亿参数的基础版本。
要查看其他 Salamandra 版本的模型卡片,请参考模型索引。
整个 Salamandra 系列均基于宽松的 Apache 2.0 许可证 发布。除开放权重外,所有训练脚本和配置文件均在 此 GitHub 仓库 中公开。
基于 Transformer 的仅解码器语言模型,从零开始在7.8万亿 tokens 的高度精选数据上进行预训练。预训练语料包含35种欧洲语言的文本及代码。
各模型的完整超参数列表可在 此处 找到。
| 总参数数量 | 2,253,490,176 |
| 嵌入层参数数量 | 524,288,000 |
| 层数 | 24 |
| 隐藏层大小 | 2,048 |
| 注意力头数 | 16 |
| 上下文长度 | 8,192 |
| 词汇表大小 | 256,000 |
| 精度 | bfloat16 |
| 嵌入类型 | RoPE |
| 激活函数 | SwiGLU |
| 层归一化 | RMS Norm |
| Flash 注意力 | ✅ |
| 分组查询注意力 | ❌ |
| 查询组数 | N/A |
这些模型旨在用于训练数据所包含的任意语言的研究和商业用途。基础模型可用于语言生成,或针对特定用例进行进一步微调。指令微调版本可用作通用助手,但用户需充分了解模型的局限性。
本模型不得用于恶意活动,例如伤害他人或侵犯人权。 任何下游应用都必须遵守现行法律法规。 不建议在未进行适当风险评估和缓解措施的情况下,在生产环境中不负责任地使用本模型。
预训练使用了 NVIDIA 的 NeMo Framework, 该框架利用 PyTorch Lightning 在高度分布式环境中实现高效的模型训练。
指令微调版本通过 FastChat 生成。
所有模型均在 MareNostrum 5 上进行训练,这是一台由巴塞罗那超级计算中心托管和运营的准百亿亿次 EuroHPC 超级计算机。
加速分区由 1,120 个节点组成,具体规格如下:
| 模型 | 节点数 | GPU 数 |
|---|---|---|
| 2B | 64 | 256 |
| 7B | 128 | 512 |
| 40B | 256 / 512 | 1,024 / 2,048 |
本节提供了使用多种方法进行推理的示例。
您将找到不同的推理运行技术,包括 Huggingface 的 Text Generation Pipeline、多 GPU 配置以及用于可扩展高效生成的 vLLM。
Huggingface Text Generation Pipeline 提供了一种简单直接的方式来使用 Salamandra-2b 模型进行推理。
pip install transformers torch accelerate sentencepiece protobuffrom transformers import pipeline, set_seed
model_id = "BSC-LT/salamandra-2b"
# Sample prompts
prompts = [
"Todo el mundo sabe que vivir en Barcelona es",
"¿Pueblo o ciudad? Una ventaja de vivir en la ciudad es que hay muchas oportunidades de ocio y empleo, así como una gran diversidad de comercios para todos los gustos. Sin embargo, las ciudades suelen ser ",
"Llegir ens proporciona",
"What I find more fascinating about languages is that",
"La vie peut être",
"The future of AI is",
]
# Create the pipeline
generator = pipeline("text-generation", model_id, device_map="auto")
generation_args = {
"temperature": 0.1,
"top_p": 0.95,
"max_new_tokens": 25,
"repetition_penalty": 1.2,
"do_sample": True
}
# Fix the seed
set_seed(1)
# Generate texts
outputs = generator(prompts, **generation_args)
# Print outputs
for output in outputs:
print(output[0]["generated_text"])
本节提供了一个使用 Huggingface 的 AutoModel 类运行推理的简单示例。
pip install transformers torch accelerate sentencepiece protobuffrom transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "BSC-LT/salamandra-2b"
# Input text
text = "El mercat del barri és"
# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
# Load the model
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
torch_dtype=torch.bfloat16
)
generation_args = {
"temperature": 0.1,
"top_p": 0.95,
"max_new_tokens": 25,
"repetition_penalty": 1.2,
"do_sample": True
}
inputs = tokenizer(text, return_tensors="pt")
# Generate texts
output = model.generate(input_ids=inputs["input_ids"].to(model.device), attention_mask=inputs["attention_mask"], **generation_args)
# Print outputs
print(tokenizer.decode(output[0], skip_special_tokens=True))vLLM 是一个高效的推理库,可实现更快、更具扩展性的文本生成。
pip install vllmfrom vllm import LLM, SamplingParams
model_id = "BSC-LT/salamandra-2b"
# Sample prompts
prompts = [
"Todo el mundo sabe que vivir en Barcelona es",
"¿Pueblo o ciudad? Una ventaja de vivir en la ciudad es que hay muchas oportunidades de ocio y empleo, así como una gran diversidad de comercios para todos los gustos. Sin embargo, las ciudades suelen ser ",
"Llegir ens proporciona",
"What I find more fascinating about languages is that",
"La vie peut être",
"The future of AI is",
]
# Create a sampling params object
sampling_params = SamplingParams(
temperature=0.1,
top_p=0.95,
seed=1,
max_tokens=25,
repetition_penalty=1.2)
# Create an LLM
llm = LLM(model=model_id)
# Generate texts
outputs = llm.generate(prompts, sampling_params)
# Print outputs
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")训练语料库包含2.4万亿个token,涵盖35种欧洲语言和92种编程语言,预处理文本总量达33TB。 语言采样采用人工方式,对西班牙的官方语言(西班牙语、加泰罗尼亚语、加利西亚语和巴斯克语)进行2倍过采样,代码采样量减半,其余语言保持原样,最终分布如下:

这个高度多语言的语料库主要由Colossal OSCAR的数据构成,占总token数的66.06%。 其次是Starcoder,占11.91%,Spanish Crawling占3.34%。 接下来是French PD,占3.12%,Proof Pile占1.98%。 其他值得注意的贡献包括Macocu、Pile of Law和Eurlex,各自贡献约1.5%至1.3%。 这些主要来源共同构成了语料库的主体,为语言模型的训练提供了丰富多样的数据集。 其余10%来自各种语言的小型数据源。
欢迎点击下方展开按钮查看完整数据源列表。
| 数据集 | 语言 | 来源 |
|---|---|---|
| Parlamint corpus | at, bg, cz, dk, ee, es, es-ga, fi, fr, gb, gr, hr, hu, it, lv, nl, no, pl, pt, rs, se, si | Erjavec et al., 2021 |
| Bulgarian National Corpus | bg | 链接 |
| Colossal OSCAR 1.0 | bg, ca, cs, cy, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, oc, pl, pt, ro, ru, sh, sk, sl, sr, sv, uk | Brack et al., 2024 |
| Wikimedia dumps | bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, ga, gl, hr, hu, it, lt, lv, mt, nl, nn, no, pl, pt, ro, sh, sk, sl, sr, uk | 链接 |
| OpenSubtitlesv2016 | bg, ca, cs, da, de, el, en, es, et, eu, fi, fr, gl, hr, it, lt, lv, nl, no, pl, pt, ro, sk, sl, sr, sv, uk | Lison & Tiedemann, 2016 |
| MaCoCu web corpus | bg, ca, el, hr, mt, sl, sr, uk | Bañón et al., 2022 |
| EurLEX-Resources | bg, cs, da, de, el, en, es, et, fi, fr, ga, hr, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv | 链接 |
| MC4-Legal | bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv | 链接 |
| CURLICAT Corpus | bg, hr, hu, pl, ro, sk, sl | Váradi et al., 2022 |
| CATalog | ca | Palomar-Giner et al., 2024 |
| Spanish Crawling | ca, es, eu, gl | 相关西班牙网站爬取 |
| Starcoder | code | Li et al., 2023 |
| SYN v9: large corpus of written Czech | cs | Křen et al., 2021 |
| Welsh-GOV | cy | 从链接爬取 |
| DaNewsroom | da | Varab & Schluter, 2020 |
| Danish GigaWord | da | Strømberg-Derczynski et al., 2021 |
| DK-CLARIN Reference Corpus of General Danish | da | 链接 |
| The Danish Parliament Corpus 2009 - 2017, v1 | da | Hansen, 2018 |
| DeWaC | de | 链接 |
| Open Legal Data - German court decisions and laws | de | Ostendorff et al., 2020 |
| Greek Legal Code | el | Papaloukas et al., 2021 |
| Greek Web Corpus | el | Outsios et al., 2018 |
| Auxiliary Mathematics Problems and Solutions (AMPS) dataset | en | Hendrycks et al., 2021 |
| BIGPATENT | en | Sharma et al., 2019 |
| FineWeb-Edu (350BT subset) | en | Penedo et al., 2024 |
| peS2o | en | Soldaini & Lo, 2023 |
| PG-19 | en | Rae et al., 2019 |
| Pile of Law (selected subsets) | en | Henderson* et al., 2022 |
| proof-pile | en | 链接 |
| RedPajama-Data T1 (StackExchange subset) | en | Computer, 2023 |
| The Pile (PhilPapers subset) | en | Gao et al., 2021 |
| Biomedical | es | 内部生成的生物医学数据集:Wikipedia LS、Pubmed、MeSpEn、专利、临床病例、医学爬虫 |
| HPLTDatasets v1 - Spanish | es | de Gibert et al., 2024 |
| Legal | es | 内部生成的法律数据集:BOE、BORME、参议院、众议院、西班牙法院命令、DOGC |
| Scientific | es | 内部生成的科学数据集:Dialnet、Scielo、CSIC、TDX、BSC、UCM |
| Spanish Legal Domain Corpora | es | Gutiérrez-Fandiño et al., 2021 |
| Estonian National Corpus 2021 | et | Koppel & Kallas, 2022 |
| Estonian Reference Corpus | et | 链接 |
| EusCrawl (w/o Wikipedia or NC-licenses) | eu | Artetxe et al., 2022 |
| Latxa Corpus v1.1 | eu | Etxaniz et al., 2024 链接 |
| Aya Dataset (w/o Evaluation Suite) | eu, hr, nl, fi, ka, hu, lt, nn, ro, sk, lv, cy, bg, cs, en, fr, de, ga, mt, pl, ru, sl, sv, ca, da, et, gl, el, it, no, pt, sr, es, uk | Singh et al., 2024 |
| Yle Finnish News Archive | fi | 链接 |
| CaBeRnet: a New French Balanced Reference Corpus | fr | Popa-Fabre et al., 2020 |
| French Public Domain Books | fr | 链接 |
| French Public Domain Newspapers | fr | 链接 |
| Irish Universal Dependencies | ga | 链接 |
| The Gaois bilingual corpus of English-Irish legislation (Irish legislation) | ga | 链接 |
| CorpusNÓS | gl | de-Dios-Flores et al., 2024 |
| Croatian web corpus hrWaC 2.1 | hr | Ljubešić & Klubička, 2014 |
| ITWaC | it | 链接 |
| Corpus of State-related content from the Latvian Web (Processed) | lv | 链接 |
| Korpus Malti | mt | Micallef et al., 2022 |
| SoNaR Corpus NC 1.2 | nl | 链接 |
| Norwegian Colossal Corpus | nn, no | Kummervold et al., 2021 |
| Occitan Corpus | oc | 由IEA提供 |
| NKJP-PodkorpusMilionowy-1.2 (National Corpus of Polish) | pl | Lewandowska-Tomaszczyk et al., 2013 |
| Polish Parliamentary Corpus / Korpus Dyskursu Parlamentarnego | pl | Ogrodniczuk, 2018 |
| Brazilian Portuguese Web as Corpus | pt | Wagner Filho et al., 2018 |
| ParlamentoPT | pt | Rodrigues et al., 2023 |
| MARCELL Romanian legislative subcorpus v2 | ro | 链接 |
| Korpus slovenských právnych predpisov v1.9 | sk | 链接 |
| od-justice 2.0 | sk | 链接 |
| Corpus of academic Slovene KAS 2.0 | sl | Žagar et al., 2022 |
| slWaC web corpus | sl | Erjavec et al., 2015 |
| SrpKorSubset (news, legal, academic, conversation, literary) | sr | 链接 |
| The Swedish Culturomics Gigaword Corpus | sv | Rødven-Eide, 2016 |
| Corpus of laws and legal acts of Ukraine | uk | 链接 |
如需查阅包含相应许可证的数据摘要文件,请发送电子邮件至ipr@bsc.es。
该模型训练了 3 个 epoch,最后还有两轮各 0.3B 的更高质量 tokens,这意味着预训练期间看到的总 token 数约为 7.8 万亿 tokens。
我们按照 (Gebru et al., 2021) 定义的最佳实践,提供了一个详细的数据表部分。
创建该数据集的目的是什么?是否有特定的任务?是否有需要填补的特定空白?请提供描述。
创建此数据集的目的是预训练 Salamandra 系列多语言模型,使其在大量欧洲语言(35 种)和代码(包括 92 种不同编程语言)上具有高性能。此外,我们旨在特别代表西班牙的官方语言:西班牙语、加泰罗尼亚语、加利西亚语和巴斯克语。这就是我们对这些语言进行过采样的原因。
我们发现大规模多语言数据存在巨大缺口,特别是在少数民族语言方面(Ostendorff & Rehm, 2023),因此我们在创建此预训练数据集时所做的部分努力促成了对大型项目的贡献,例如 Community OSCAR(Brack et al., 2024),其中包括 151 种语言和 40T 单词,以及 CATalog(Palomar-Giner et al., 2024),世界上最大的加泰罗尼亚语开放数据集。
谁创建了该数据集(例如,哪个团队、研究小组)以及代表哪个实体(例如,公司、机构、组织)?
该数据集由巴塞罗那超级计算中心 - 国家超级计算中心 (BSC-CNS) 的语言技术部门 (LangTech) 创建,该部门旨在通过前沿研究和开发以及 HPC 的使用来推进自然语言处理领域。具体而言,它是由该部门的数据团队创建的,主要贡献者是 Javier Saiz、Ferran Espuña 和 Jorge Palomar。
然而,如果没有大量合作者、合作伙伴和公共机构的协作,数据集的创建是不可能的,这些在致谢部分有详细说明。
谁资助了数据集的创建?如果有相关资助,请提供资助者名称以及资助名称和编号。
这项工作/研究由加泰罗尼亚政府通过 Aina 项目 推动和资助。
组成数据集的实例代表什么(例如,文档、照片、人物、国家)?是否有多种类型的实例(例如,电影、用户和评分;人物和他们之间的互动;节点和边)?请提供描述。
该数据集完全由多种语言的文本文档组成。具体而言,数据主要来源于以下数据库和存储库:
我们在本节末尾提供了完整的数据集来源列表。
总共有多少个实例(如果适用,每种类型有多少)?
该数据集包含多种语言的各种实例,并对某些语言进行了显著调整。英语占比最大,占总数据的 39.08%。西班牙语上采样了 2 倍,占比达 16.59%,加泰罗尼亚语 (1.84%)、巴斯克语 (0.26%) 和加利西亚语 (0.36%) 也上采样了 2 倍。另一方面,代码相关数据下采样了一半,占总数的 6.42%。其他主要语言包括法语 (6.59%)、俄语 (5.39%)、德语 (4.25%) 和匈牙利语 (3.93%),还有几种其他语言占比在 1% 到 2% 之间,其余部分由各种其他语言构成。
数据集是否包含所有可能的实例,还是从更大集合中抽取的样本(不一定是随机的)?如果数据集是样本,那么更大的集合是什么?样本是否代表更大的集合(例如,地理覆盖范围)?如果是,请描述如何验证/核实这种代表性。如果不代表更大的集合,请描述原因(例如,为了涵盖更多样化的实例,因为实例被保留或不可用)。
该数据集是来自多个来源的样本,根据内容的主要语言具有不同的权重:西班牙语、加泰罗尼亚语、巴斯克语和加利西亚语内容上采样了 2 倍,而编程语言下采样了一半。其他来源则按其出现比例进行采样。
每个实例由什么数据组成?“原始”数据(例如,未处理的文本或图像)还是特征?无论哪种情况,请提供描述。
每个实例均包含经过去重、语言识别和特定来源过滤处理的文本文档。部分文档需要通过光学字符识别(OCR)从PDF等非文本格式中提取文本。
每个实例是否关联有标签或目标?如果有,请提供说明。
每个实例都标有唯一标识符、内容的主要语言以及网络来源实例的URL。系统会自动分配额外标签,用于检测特定类型的内容(如有害或有毒内容),并为不期望的特征(如极短文档、高符号密度等)分配初步指标,这些指标用于过滤实例。
单个实例中是否存在信息缺失?如果有,请说明缺失原因(例如,因无法获取)。这不包括有意移除的信息,但可能包括例如编辑过的文本。
实例中无重要信息缺失。
实例之间的关系是否明确(例如,用户的电影评分、社交网络链接)?如果是,请描述这些关系是如何明确的。
实例通过共享元数据(如来源和语言标识符)建立关联。
是否有推荐的数据拆分方式(例如,训练集、开发/验证集、测试集)?如果有,请描述这些拆分方式及其背后的理由。
数据集随机拆分为训练集、验证集和测试集。
数据集中是否存在错误、噪声来源或冗余?如果有,请提供说明。
尽管已移除每个来源内的重复实例,但在段落和句子层面仍存在冗余,尤其是在网络来源的实例中,搜索引擎优化(SEO)技术和模板导致文本模式重复。由于格式差异,部分实例也可能在不同来源间重复。
数据集是独立的,还是链接到或依赖外部资源(例如,网站、推文、其他数据集)?如果链接到或依赖外部资源,a) 是否能保证这些资源长期存在且保持不变;b) 是否有完整数据集的官方存档版本(即包含数据集创建时存在的外部资源);c) 与外部资源相关的是否存在任何限制(例如,许可、费用)可能适用于数据集使用者?请提供所有外部资源的描述、相关限制以及适当的链接或其他访问点。
数据集是独立的,不依赖外部资源。
数据集中是否包含可能被视为机密的数据(例如,受法律特权保护的数据、医患保密数据、包含个人非公开通信内容的数据)?如果有,请提供说明。
数据集中不包含机密数据。
数据集中是否包含直接查看时可能具有冒犯性、侮辱性、威胁性或可能引起焦虑的数据?如果有,请说明原因。如果数据集与人员无关,可跳过本节其余问题。
数据集包含网络爬取内容,这类内容可能在各种语言中过度呈现色情材料(Kreutzer et al., 2022)。尽管已应用预处理技术来减轻冒犯性内容,但网络来源数据的异质性和规模使得彻底过滤极具挑战性,因此几乎不可能识别所有成人内容而不陷入过度过滤的情况,这可能会对特定人群产生负面影响(Dodge et al., 2021)。
数据集是否识别任何子群体(例如,按年龄、性别)?如果是,请描述这些子群体的识别方式及其在数据集中的分布情况。
数据集未明确识别任何子群体。
是否可以从数据集中直接或间接(即与其他数据结合)识别个人(即一个或多个自然人)?如果可以,请描述如何识别。
数据集中的网络来源实例可能包含网络上公开的个人身份信息(PII),例如姓名、IP地址、电子邮件地址和电话号码。虽然通过多个数据点的组合可能间接识别个人,但网络数据的性质和规模使其难以解析此类信息。无论如何,在预处理过程中已努力过滤或匿名化敏感数据,但某些可识别信息仍可能保留在数据集中。
数据集中是否包含任何可能被视为敏感的数据?如果有,请提供说明。
由于数据集包含网络来源内容和其他公开可用文档,实例可能会无意中泄露财务信息、健康相关细节或政府身份证明形式,例如社会安全号码(Subramani et al., 2023),特别是当内容来源于监管较少的来源或用户生成平台时。
数据是如何收集的?
本数据集由多个来源组合构成,其获取方法可分为三类:
使用了哪些机制或程序来收集数据?这些机制或程序是如何验证的?
根据前面定义的三类来源,各类别使用的机制如下:
如果数据集是从更大集合中抽样得到的,采用了什么抽样策略?
抽样策略是使用经过“预处理/清理/标记”部分所述过滤后得到的整个数据集,其特殊性在于对西班牙的共同官方语言(西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语)进行了2倍的上采样(即抽样文档的概率为两倍),对代码文档进行了1/2的下采样(即抽样代码文档的概率为一半,在所有编程语言中均匀分布)。
谁参与了数据收集过程?他们是如何获得报酬的?
数据的提取、过滤和抽样通常由自动化流程完成。运行这些流程所需的代码完全由LangTech数据团队成员开发,或从开源软件中获取。此外,从供应商处获取数据无需支付任何费用。
数据收集的时间范围是什么?该时间范围是否与实例相关数据的创建时间范围一致?如果不一致,请描述实例相关数据的创建时间范围。
数据的获取和处理时间为2023年4月至2024年4月。然而,如前所述,许多数据来自Common Crawl等开放项目,其中包含2014年的数据,因此结束日期(2024年4月)比开始日期更为重要。
是否进行过任何伦理审查流程?如果有,请描述这些审查流程及其结果,并提供任何支持文档的链接或其他访问点。
由于数据大多是公开的且并非特别敏感,因此未进行特定的伦理审查流程。但是,我们设有内部评估团队和偏见团队来监控伦理问题。此外,我们与“人工智能伦理观察站”(OEIAC)和“西班牙人工智能监督局”(AESIA)密切合作,分别从伦理和法律角度对我们开展的流程进行审计。
是否对数据进行过预处理/清理/标记?如果有,请提供说明。如果没有,可跳过本节其余问题。
文本文档实例未被修改,但网络来源文档基于特定标准从两个维度进行了过滤:
除了预处理/清理/标记后的数据,是否还保存了“原始”数据?如果有,请提供“原始”数据的链接或其他访问点。
未保留原始数据。
用于预处理/清理/标记数据的软件是否可用?如果有,请提供链接或其他访问点。
是的,预处理和过滤软件是开源的。CURATE管道用于西班牙语爬取数据和CATalog,Ungoliant管道用于OSCAR项目。
该数据集是否已用于任何任务?如果有,请提供说明。
用于预训练Salamandra模型系列。
该数据集还可用于哪些(其他)任务?
该数据主要可用于预训练其他语言模型,这些模型随后可用于广泛的用例。该数据集还可用于其他任务,如语言模型微调、跨语言自然语言处理任务、机器翻译、特定领域文本生成以及特定语言数据分析。
数据集的构成、收集方式或预处理/清理/标记方式是否可能影响未来的使用?数据集使用者可以采取哪些措施来减轻这些风险或危害?
网络爬取内容中标准语言变体占比过高,这会影响语言模型在少数民族语言上的性能。数据中的语言多样性对于避免偏见至关重要,尤其是在编码非标准方言、防止特定人群被排斥方面。此外,尽管网络爬取数据存在法律不确定性,但我们优先考虑宽松的许可和隐私保护措施,同时认识到大规模数据集中个人身份信息(PII)带来的挑战。我们正在持续努力解决隐私问题,并致力于构建一个更具包容性的语言数据集。
是否存在不应使用该数据集的任务?
数据集是否会分发给创建该数据集的实体以外的第三方?如果是,请提供说明。
数据集不会发布或分发给第三方。本节中省略任何与分发相关的问题。
谁将支持/托管/维护该数据集?
数据集将由巴塞罗那超级计算中心(BSC)的语言技术部门(LangTech)托管。该团队将确保定期更新,并监控数据集在其负责的来源中与内容完整性、法律合规性和偏见相关的任何问题。
如何联系数据集的所有者/管理者/维护者?
可通过电子邮件langtech@bsc.es联系数据所有者。
数据集是否会更新?
数据集不会更新。
如果数据集涉及人员,与实例相关的数据的保留是否有适用限制?如果有,请描述这些限制以及如何执行。
除了网络来源内容中公开可用的数据外,数据集不保留可能直接识别个人的敏感数据。由于网络数据的庞大数量和多样性,无法逐一个人通知或管理数据保留。然而,我们通过预处理和过滤来删除可识别或有害内容,努力降低与敏感信息相关的风险。尽管采取了这些措施,我们仍保持警惕,以应对潜在的隐私和伦理问题。
旧版本的数据集是否会继续得到支持/托管/维护?如果是,请描述如何支持。如果不是,请描述如何将其废弃情况告知数据集使用者。
由于数据集不会更新,因此只保留最终版本。
如果其他人想要扩展/增强/基于数据集进行构建/为数据集做贡献,是否有相应的机制?
数据集不接受外部贡献。
评估采用语言模型评估工具包(Language Model Evaluation Harness)进行(Gao et al., 2024)。我们的评估任务集来源于SpanishBench、CatalanBench、BasqueBench和GalicianBench。我们还使用了LM Evaluation Harness中已有的英语任务。这些基准测试包含了新的和现有的任务及数据集。在以下表格中,我们选取了部分评估数据集的结果,这些数据集代表了模型在这些基准测试中各类任务上的性能表现。
我们仅使用那些由人工生成、人工翻译,或有强大人工参与的任务(即机器翻译后经专业修订,或机器生成后经人工修订和标注)。这就是不同语言所报告的任务数量存在差异的原因。随着更多符合这些要求的任务发布,我们将更新所呈现的结果。我们还计划将评估扩展到其他语言,前提是相关数据集符合我们的质量标准。
在实施评估的过程中,我们观察到一系列在复现和解释所呈现结果时值得考虑的问题。这些问题包括:在某些任务中,性能会因所使用的transformers库版本不同,以及加载模型时是否使用张量并行(tensor parallelism)而产生约1.5%的差异。在实施现有任务时,我们会对数据集、工具包任务本身以及模型在评估过程中看到的输入类型进行全面的质量评估。我们的实现(参见上述链接)解决了多个现有问题,例如数据集和提示词中的错误,以及缺乏预处理等。这一切意味着,如果使用其他工具包实现,结果将会有所不同,并且可能会因复现设置的不同而略有差异。
需要注意的是,这些结果受到当前所有黄金标准评估方法固有缺陷的影响,这些数字并不能完全代表模型的能力和潜力。因此,我们建议在阅读和解释结果时保持谨慎。
与其他基线模型的完整结果对比、关于模型在各任务上的性能及其影响的讨论,以及任务实施过程中问题解决的细节,将很快在技术报告中公布。
以下报告的所有结果均基于5-shot设置。
| 类别 | 任务 | 指标 | 结果 |
|---|---|---|---|
| 常识推理 | xstorycloze_es | acc | 64.92 |
| 自然语言推理(NLI) | wnli_es | acc | 54.93 |
| xnli_es | acc | 44.98 | |
| 释义 | paws_es | acc | 52.05 |
| 问答(QA) | xquad_es | acc | 54.32 |
| 翻译 | flores_es | bleu | 11.46 |
| 类别 | 任务 | 指标 | 结果 |
|---|---|---|---|
| 常识推理 | copa_ca | acc | 68.80 |
| xstorycloze_ca | acc | 65.72 | |
| 自然语言推理(NLI) | wnli_ca | acc | 56.34 |
| xnli_ca | acc | 48.07 | |
| 释义 | parafraseja | acc | 58.55 |
| paws_ca | acc | 55.15 | |
| 问答(QA) | arc_ca_easy | acc | 54.76 |
| arc_ca_challenge | acc | 30.55 | |
| openbookqa_ca | acc | 27.40 | |
| piqa_ca | acc | 62.89 | |
| siqa_ca | acc | 41.91 | |
| 翻译 | flores_ca | bleu | 14.70 |
| 类别 | 任务 | 指标 | 结果 |
|---|---|---|---|
| 常识推理 | xcopa_eu | acc | 55.60 |
| xstorycloze_eu | acc | 57.64 | |
| 自然语言推理(NLI) | wnli_eu | acc | 56.34 |
| xnli_eu | acc | 39.78 | |
| 问答(QA) | eus_exams | acc | 23.72 |
| eus_proficiency | acc | 23.37 | |
| eus_trivia | acc | 27.58 | |
| 阅读理解 | eus_reading | acc | 27.84 |
| 翻译 | flores_eu | bleu | 3.58 |
| 类别 | 任务 | 指标 | 结果 |
|---|---|---|---|
| 释义 | parafrases_gl | acc | 54.08 |
| paws_gl | acc | 53.30 | |
| 问答(QA) | openbookqa_gl | acc | 30.80 |
| 翻译 | flores_gl | bleu | 12.86 |
| 类别 | 任务 | 指标 | 结果 |
|---|---|---|---|
| 常识推理 | copa | acc | 83.00 |
| xstorycloze_en | acc | 73.06 | |
| 自然语言推理(NLI) | wnli | acc | 56.34 |
| xnli_en | acc | 47.35 | |
| 释义 | paws * | acc | 55.95 |
| 问答(QA) | arc_easy | acc | 74.07 |
| arc_challenge | acc | 37.63 | |
| openbookqa | acc | 28.00 | |
| piqa | acc | 74.86 | |
| social_iqa | acc | 46.62 | |
| squad_en ** | acc | 44.38 |
* 当前LM Evaluation Harness的实现缺乏正确的预处理。这些结果是在经过适当预处理后获得的。
** 此任务尚未在官方工具包中提供,我们希望尽快添加。
我们通过不同基准测试,考察了本模型中存在的不良社会偏见和认知偏见。针对社会偏见,我们使用BBQ数据集(Parrish et al., 2022)的原始英文版本以及Regard数据集(Sheng et al., 2019)进行性能测试。结果显示,模型在模糊语境和明确语境下的准确率均不理想,这表明模型存在社会偏见,需要在后期训练阶段加以解决。
我们的认知偏见分析主要关注零样本设置下的位置效应和少样本设置下的多数类偏见。对于位置效应,我们利用了ARC多项选择题数据集(Clark et al., 2018)。观察到中等到强甚至极强的首因效应,即模型倾向于选择答案列表中靠前的选项。在少样本设置下,我们使用SST-2数据集(Socher et al., 2013)来衡量多数类效应的影响。检测到中等程度的效应,这意味着输出可能会受到提示的影响。
我们对这些偏见的分析并非详尽无遗,其局限性在于训练数据中所有语言的适当资源相对稀缺。我们计划在未来的工作中逐步扩展和深化我们的分析。
需要强调的是,这些结果对于一个尚未经过指令微调或对齐的预训练模型而言是可以预期的。进行这些测试是为了揭示模型可能包含的偏见。我们强烈建议开发者将这些偏见纳入考量,并针对其特定的模型应用场景进行安全测试和调优。
巴塞罗那超级计算中心语言技术部门。
如需更多信息,请发送电子邮件至langtech@bsc.es。
版权所有(c) 2024 巴塞罗那超级计算中心语言技术部门。
本工作由加泰罗尼亚政府通过Aina Project推动并资助。
本工作由“数字转型与公共职能部”资助——由欧盟“下一代欧盟”计划资助,属于ILENIA Project框架,参考编号为2022/TL22/00215337。
本项目的顺利开展得益于众多团队和机构的贡献,主要体现在数据提供、知识传递及技术支持等方面。
在加泰罗尼亚地区,多家机构参与了本项目。我们在此感谢Òmnium Cultural、Parlament de Catalunya、Institut d'Estudis Aranesos、Racó Català、Vilaweb、ACN、Nació Digital、El món和Aquí Berguedà。
在国家层面,我们特别感谢ILENIA项目的合作伙伴:CENID、HiTZ和CiTIUS的参与。同时,我们也向西班牙参议院和众议院、Fundación Dialnet、Fundación Elcano以及拉斯帕尔马斯大学的“智能系统与数值应用工程研究所(SIANI)”致以诚挚的谢意。
在国际层面,我们感谢威尔士政府、DFKI、Occiglot项目(尤其要感谢Malte Ostendorff)以及Common Crawl基金会(尤其要感谢Pedro Ortiz)的合作。我们还要特别感谢NVIDIA团队,我们与他们定期举行会议,尤其要感谢:Ignacio Sarasua、Adam Henryk Grzywaczewski、Oleg Sudakov、Sergio Perez、Miguel Martinez、Felipes Soares和Meriem Bendris。在整个项目过程中,他们始终如一的支持让我们尤为感激。
他们的宝贵付出为本研究工作的发展起到了关键作用。
请注意,本模型可能包含偏见或其他非预期的偏差。 当第三方基于本模型部署系统、提供服务或自行使用本模型时, 其有责任减轻相关风险,并确保遵守适用法规, 包括那些规范人工智能使用的法规。
巴塞罗那超级计算中心作为本模型的所有者和创建者,不对第三方使用本模型所产生的任何结果承担责任。
技术报告和论文即将发布。