ArabianGPT 模型概述

大型语言模型（LLMs）文本生成使用免责声明

对于 ArabianGPT-0.1B 生成的任何伤害、不准确或不当内容，我们不承担任何责任，用户使用和应用模型输出的风险由其自行承担。

重要说明： 目前，我们提供的是原始预训练模型。我们的团队正积极致力于发布基于指令的大型语言模型，这些模型经过微调并结合了 LRHF 技术。第一批预训练模型已开放供社区探索。尽管我们确实拥有针对特定任务（如文本摘要和情感分析）微调的模型，但它们仍处于开发阶段。

如何使用此预训练模型？

我们邀请您将这款预训练的原生阿拉伯语模型用作实验工具，以评估其能力、协助其微调，并在各种下游任务中测试其性能。我们建议您查阅我们的技术报告，以全面了解模型的性能指标以及已测试的特定下游任务。这将为您提供有关其在不同应用中的适用性和有效性的宝贵见解。

简介

ArabianGPT-0.1B 是在 ArabianLLM 计划下开发的，是一款专为阿拉伯语语言建模优化的 GPT-2 模型。它是苏丹王子大学机器人与物联网实验室合作努力的成果，专注于增强阿拉伯语的自然语言建模和生成能力。该模型代表了大型语言模型研究的重要一步，专门解决了阿拉伯语的语言复杂性和细微差别。

主要特性

架构：GPT-2
模型大小：1.34 亿参数
层数：12
模型注意力层（MAL）：12
上下文窗口大小：768 个 tokens

训练情况

数据集：抓取的阿拉伯语新闻文章
数据大小：15.5 GB
单词量：2.378 亿
分词器：Aranizer 64K
Tokens 数量：超过 17.5 亿
硬件：2 块 NDIVIA A100 GPU
训练规模：750 万样本
训练时长：3 天
性能：最终损失为 3.97

在ArabianLLM计划中的作用

ArabianGPT-0.1B（基础模型）对于推进阿拉伯语语言处理至关重要，能够应对阿拉伯语形态学和方言特有的挑战。

使用方法

适用于阿拉伯语文本生成任务。以下是使用Transformers Pipeline的示例用法：

from openmind import AutoTokenizer, AutoModelForCausalLM
import openmind
import torch
import torch_npu 
import argparse

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="LF_AICC/ArabianGPT-01B",
    )
    args = parser.parse_args()
    return args

args = parse_args()
model = args.model_name_or_path

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = openmind.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
sequences = pipeline(
   "<|im_start|>user\nDoes P=NP?<|im_end|>\n<|im_start|>assistant\n",
    max_length=256,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

局限性与伦理考量

该模型在某些场景下可能存在上下文理解或文本生成方面的局限性。
强调需以符合伦理的方式使用，以防止错误信息或有害内容的传播。

致谢

特别感谢苏丹王子大学，尤其是机器人与物联网实验室。

联系方式

咨询请联系：riotu@psu.edu.sa。

大语言模型（LLMs）文本生成使用免责声明

对于ArabianGPT-0.1B生成的任何伤害、不准确信息或不当内容，我们不承担任何责任，用户使用和应用该模型输出内容的风险由其自行承担。