Ǎguila-7B 是一款基于Transformer的因果语言模型,支持加泰罗尼亚语、西班牙语和英语。该模型以 Falcon-7B 模型为基础,在一个包含260亿 tokens 的三语语料库上进行训练,语料来源于公开可用的语料库及网络爬虫收集的资源。
Ǎguila-7B 模型可直接用于因果语言建模,以执行文本生成任务。但其主要用途是针对下游任务进行微调。
以下是使用该模型的方法:
from openmind import pipeline, AutoTokenizer, AutoModelForCausalLM
import torch
import torch_npu
import argparse
def parse_args():
parser = argparse.ArgumentParser()
parser.add_argument(
"--model_name_or_path",
type=str,
help="Jinan_AICC/aguila-7b",
default=None,
)
args = parser.parse_args()
return args
args = parse_args()
model_path = args.model_name_or_path
input_text = "El mercat del barri és fantàstic, hi pots trobar"
tokenizer = AutoTokenizer.from_pretrained(model_path)
generator = pipeline(
"text-generation",
model=model_path,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
generation = generator(
input_text,
do_sample=True,
top_k=10,
eos_token_id=tokenizer.eos_token_id,
)
print(f"Result: {generation[0]['generated_text']}")在提交本模型时,尚未采取任何措施来评估模型中嵌入的偏差和有害性。 然而,我们清楚地认识到,由于训练语料库是通过在多个网络来源上使用爬虫技术收集的,我们的模型可能存在偏差。我们计划在未来对这些领域进行研究,研究完成后,本模型卡片将进行更新。
我们通过更换分词器并调整嵌入层,将原始的 Falcon-7B 模型适配到了西班牙语和加泰罗尼亚语。
训练语料库包含 260 亿个 token,这些 token 来自多个通过网络爬虫收集的语料库和公共领域数据。
| 数据集 | 语言 | 每轮词数(百万) | 轮次 |
|---|---|---|---|
| Wikipedia | en | 2169.97 | 1.428144485 |
| C4_es | es | 53709.80 | 0.1049686196 |
| Biomedical | es | 455.03 | 0.7140722425 |
| Legal | es | 995.70 | 0.7140722425 |
| Wikipedia | es | 693.60 | 1.428144485 |
| Gutenberg | es | 53.18 | 0.7140722425 |
| C4_ca | ca | 2826.00 | 2.142216727 |
| Biomedical | ca | 11.80 | 1.428144485 |
| RacoCatalà Noticias | ca | 17.16 | 2.142216727 |
| RacoCatalà Forums | ca | 333.73 | 2.142216727 |
| CaWaC | ca | 57.79 | 2.142216727 |
| Wikipedia | ca | 228.01 | 3.570361212 |
| Vilaweb | ca | 50.34 | 2.142216727 |
数据集的语言分布如下:
| 语言 | 百分比 |
|---|---|
| En | 16.84% |
| Es | 41.38% |
| Ca | 41.79% |
注:保留了少量英语数据以避免灾难性遗忘。
训练语料库已使用字节版本的字节对编码(BPE)进行分词,词汇表大小为50,257个标记。 在训练新的分词器并适配falcon-7b的嵌入层后,模型在三种目标语言(加泰罗尼亚语、西班牙语和英语)上进行了进一步的预训练。
训练在8台配备80GB内存的NVIDIA H100 GPU上进行,总共持续了320小时。
巴塞罗那超级计算中心语言技术部门。
Copyright(c) 2023 by Language Technologies Unit, Barcelona Supercomputing Center.
Apache License, Version 2.0
本仓库中发布的模型旨在用于通用目的,并根据宽松的Apache License, Version 2.0向第三方提供。
请注意,该模型可能存在偏见和/或任何其他不良偏差。
当第三方使用本模型(或基于本模型的任何系统)向其他方部署或提供系统和/或服务,或成为本模型的用户时,他们应注意,减轻其使用所产生的风险是他们的责任,并且在任何情况下,都应遵守适用的法规,包括有关人工智能使用的法规。
在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)不对第三方使用本模型所产生的任何结果承担责任。