Ǎguila-7B

模型说明

Ǎguila-7B 是一款基于Transformer的因果语言模型，支持加泰罗尼亚语、西班牙语和英语。该模型以 Falcon-7B 模型为基础，在一个包含260亿 tokens 的三语语料库上进行训练，语料来源于公开可用的语料库及网络爬虫收集的资源。

预期用途与局限性

Ǎguila-7B 模型可直接用于因果语言建模，以执行文本生成任务。但其主要用途是针对下游任务进行微调。

使用方法

以下是使用该模型的方法：

from openmind import pipeline, AutoTokenizer, AutoModelForCausalLM
import torch
import torch_npu
import argparse

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Jinan_AICC/aguila-7b",
        default=None,
    )
    args = parser.parse_args()
    return args

args = parse_args()
model_path = args.model_name_or_path

input_text = "El mercat del barri és fantàstic, hi pots trobar"
tokenizer = AutoTokenizer.from_pretrained(model_path)
generator = pipeline(
    "text-generation",
    model=model_path,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
generation = generator(
    input_text,
    do_sample=True,
    top_k=10,
    eos_token_id=tokenizer.eos_token_id,
)

print(f"Result: {generation[0]['generated_text']}")

局限性与偏差

在提交本模型时，尚未采取任何措施来评估模型中嵌入的偏差和有害性。然而，我们清楚地认识到，由于训练语料库是通过在多个网络来源上使用爬虫技术收集的，我们的模型可能存在偏差。我们计划在未来对这些领域进行研究，研究完成后，本模型卡片将进行更新。

语言适配

我们通过更换分词器并调整嵌入层，将原始的 Falcon-7B 模型适配到了西班牙语和加泰罗尼亚语。

训练

训练数据

训练语料库包含 260 亿个 token，这些 token 来自多个通过网络爬虫收集的语料库和公共领域数据。

数据集	语言	每轮词数（百万）	轮次
Wikipedia	en	2169.97	1.428144485
C4_es	es	53709.80	0.1049686196
Biomedical	es	455.03	0.7140722425
Legal	es	995.70	0.7140722425
Wikipedia	es	693.60	1.428144485
Gutenberg	es	53.18	0.7140722425
C4_ca	ca	2826.00	2.142216727
Biomedical	ca	11.80	1.428144485
RacoCatalà Noticias	ca	17.16	2.142216727
RacoCatalà Forums	ca	333.73	2.142216727
CaWaC	ca	57.79	2.142216727
Wikipedia	ca	228.01	3.570361212
Vilaweb	ca	50.34	2.142216727

数据集的语言分布如下：

语言	百分比
En	16.84%
Es	41.38%
Ca	41.79%

注：保留了少量英语数据以避免灾难性遗忘。

训练过程

训练语料库已使用字节版本的字节对编码（BPE）进行分词，词汇表大小为50,257个标记。在训练新的分词器并适配falcon-7b的嵌入层后，模型在三种目标语言（加泰罗尼亚语、西班牙语和英语）上进行了进一步的预训练。

训练在8台配备80GB内存的NVIDIA H100 GPU上进行，总共持续了320小时。

训练超参数

seed: 42
distributed_type: multi-GPU
num_devices: 8
train_batch_size: 1
eval_batch_size: 1
total_train_batch_size: 8
total_eval_batch_size: 8
optimizer: Adam
betas: (0.9,0.999)
epsilon: 1e-08
learning_rate: 5e-05
lr_scheduler_type: linear
num_epochs: 1.0

框架版本

Pytorch 2.0.0
Transformers 4.30.2
Datasets 2.13.1
Tokenizers 0.13.3

其他信息

作者

巴塞罗那超级计算中心语言技术部门。

版权

许可协议

Apache License, Version 2.0

免责声明

点击展开

本仓库中发布的模型旨在用于通用目的，并根据宽松的Apache License, Version 2.0向第三方提供。

请注意，该模型可能存在偏见和/或任何其他不良偏差。

当第三方使用本模型（或基于本模型的任何系统）向其他方部署或提供系统和/或服务，或成为本模型的用户时，他们应注意，减轻其使用所产生的风险是他们的责任，并且在任何情况下，都应遵守适用的法规，包括有关人工智能使用的法规。

在任何情况下，模型的所有者和创建者（巴塞罗那超级计算中心）不对第三方使用本模型所产生的任何结果承担责任。