HuggingFace镜像/aguila-7b
模型介绍文件和版本分析
下载使用量0

Ǎguila-7B

模型说明

Ǎguila-7B 是一款基于Transformer的因果语言模型,支持加泰罗尼亚语、西班牙语和英语。该模型以 Falcon-7B 模型为基础,在一个包含260亿 tokens 的三语语料库上进行训练,语料来源于公开可用的语料库及网络爬虫收集的资源。

预期用途与局限性

Ǎguila-7B 模型可直接用于因果语言建模,以执行文本生成任务。但其主要用途是针对下游任务进行微调。

使用方法

以下是使用该模型的方法:

from openmind import pipeline, AutoTokenizer, AutoModelForCausalLM
import torch
import torch_npu
import argparse

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Jinan_AICC/aguila-7b",
        default=None,
    )
    args = parser.parse_args()
    return args

args = parse_args()
model_path = args.model_name_or_path

input_text = "El mercat del barri és fantàstic, hi pots trobar"
tokenizer = AutoTokenizer.from_pretrained(model_path)
generator = pipeline(
    "text-generation",
    model=model_path,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
generation = generator(
    input_text,
    do_sample=True,
    top_k=10,
    eos_token_id=tokenizer.eos_token_id,
)

print(f"Result: {generation[0]['generated_text']}")

局限性与偏差

在提交本模型时,尚未采取任何措施来评估模型中嵌入的偏差和有害性。 然而,我们清楚地认识到,由于训练语料库是通过在多个网络来源上使用爬虫技术收集的,我们的模型可能存在偏差。我们计划在未来对这些领域进行研究,研究完成后,本模型卡片将进行更新。

语言适配

我们通过更换分词器并调整嵌入层,将原始的 Falcon-7B 模型适配到了西班牙语和加泰罗尼亚语。

训练

训练数据

训练语料库包含 260 亿个 token,这些 token 来自多个通过网络爬虫收集的语料库和公共领域数据。

数据集语言每轮词数(百万)轮次
Wikipediaen2169.971.428144485
C4_eses53709.800.1049686196
Biomedicales455.030.7140722425
Legales995.700.7140722425
Wikipediaes693.601.428144485
Gutenberges53.180.7140722425
C4_caca2826.002.142216727
Biomedicalca11.801.428144485
RacoCatalà Noticiasca17.162.142216727
RacoCatalà Forumsca333.732.142216727
CaWaCca57.792.142216727
Wikipediaca228.013.570361212
Vilawebca50.342.142216727

数据集的语言分布如下:

语言百分比
En16.84%
Es41.38%
Ca41.79%

注:保留了少量英语数据以避免灾难性遗忘。

训练过程

训练语料库已使用字节版本的字节对编码(BPE)进行分词,词汇表大小为50,257个标记。 在训练新的分词器并适配falcon-7b的嵌入层后,模型在三种目标语言(加泰罗尼亚语、西班牙语和英语)上进行了进一步的预训练。

训练在8台配备80GB内存的NVIDIA H100 GPU上进行,总共持续了320小时。

训练超参数

  • seed: 42
  • distributed_type: multi-GPU
  • num_devices: 8
  • train_batch_size: 1
  • eval_batch_size: 1
  • total_train_batch_size: 8
  • total_eval_batch_size: 8
  • optimizer: Adam
  • betas: (0.9,0.999)
  • epsilon: 1e-08
  • learning_rate: 5e-05
  • lr_scheduler_type: linear
  • num_epochs: 1.0

框架版本

  • Pytorch 2.0.0
  • Transformers 4.30.2
  • Datasets 2.13.1
  • Tokenizers 0.13.3

其他信息

作者

巴塞罗那超级计算中心语言技术部门。

版权

Copyright(c) 2023 by Language Technologies Unit, Barcelona Supercomputing Center.

许可协议

Apache License, Version 2.0

免责声明

点击展开

本仓库中发布的模型旨在用于通用目的,并根据宽松的Apache License, Version 2.0向第三方提供。

请注意,该模型可能存在偏见和/或任何其他不良偏差。

当第三方使用本模型(或基于本模型的任何系统)向其他方部署或提供系统和/或服务,或成为本模型的用户时,他们应注意,减轻其使用所产生的风险是他们的责任,并且在任何情况下,都应遵守适用的法规,包括有关人工智能使用的法规。

在任何情况下,模型的所有者和创建者(巴塞罗那超级计算中心)不对第三方使用本模型所产生的任何结果承担责任。