HuggingFace镜像/ArabianGPT-03B-openmind
模型介绍文件和版本分析
下载使用量0

ArabianGPT 模型概述

大型语言模型(LLMs)文本生成使用免责声明

对于 ArabianGPT-0.3B 生成的任何伤害、不准确或不当内容,我们不承担任何责任,用户使用和应用模型输出的风险由其自行承担。

重要说明: 目前,我们提供的是原始预训练模型。我们的团队正积极致力于发布基于指令的大型语言模型,这些模型经过微调并通过 LRHF 增强。首批预训练模型已开放供社区探索。虽然我们确实拥有针对特定任务(如文本摘要和情感分析)微调的模型,但它们仍处于开发阶段。

如何使用此预训练模型?

我们邀请您将此预训练的原生阿拉伯语模型用作实验工具,以评估其能力、协助其微调,并在各种下游任务中评估其性能。我们建议您查阅我们的技术报告,以全面了解模型的性能指标以及它所测试的特定下游任务。这将为您提供有关其在不同应用中的适用性和有效性的宝贵见解。

简介

ArabianGPT-0.3B 是在 ArabianLLM 计划下开发的专用 GPT-2 模型,针对阿拉伯语语言建模进行了优化。 它是苏丹王子大学机器人与物联网实验室合作努力的成果,致力于增强阿拉伯语的自然语言建模和生成能力。 该模型代表了大型语言模型研究的重要一步,专门解决了阿拉伯语的语言复杂性和细微差别。

主要特性

  • 架构:GPT-2
  • 模型大小:3.45 亿参数
  • 层数:24
  • 模型注意力层(MAL):16
  • 上下文窗口大小:1024 个标记

训练情况

  • 数据集:包含科学文章和通用文本的抓取文本
  • 数据大小:23 GB
  • 分词器:Aranizer 64K
  • 标记数:超过 33 亿
  • 硬件:4 块 NDIVIA A100 GPU
  • 训练时长:45 天
  • 性能:损失值 3.82

在ArabianLLM计划中的作用

ArabianGPT-0.3B 对于推进阿拉伯语语言处理、应对阿拉伯语形态学和方言特有的挑战至关重要。

使用方法

适用于阿拉伯语文本生成任务。使用Transformers Pipeline的示例用法:

from openmind import AutoTokenizer, AutoModelForCausalLM, is_torch_npu_available
from openmind_hub import snapshot_download
import torch.nn.functional as F
from torch import Tensor
import openmind
import torch
import argparse

def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument(
        "--model_name_or_path",
        type=str,
        help="Path to model",
        default="jeffding/ArabianGPT-03B-openmind",
    )
    args = parser.parse_args()
    return args

def main():
    args = parse_args()
    model_path = args.model_name_or_path

    if is_torch_npu_available():
        device = "npu:0"
    else:
        device = "cpu"
        
    model = model_path
    tokenizer = AutoTokenizer.from_pretrained(model)
    pipeline = openmind.pipeline(
        "text-generation",
        model=model,
        torch_dtype=torch.float16,
        device_map="auto",
    )

    sequences = pipeline(
        'مقدمة موجزة إلى دبي',
        do_sample=True,
        top_k=10,
        num_return_sequences=1,
        repetition_penalty=1.5,
        eos_token_id=tokenizer.eos_token_id,
        max_length=500,
    )
    for seq in sequences:
        print(f"Result: {seq['generated_text']}")
    
if __name__ == "__main__":
    main()

局限性与伦理考量

  • 该模型在特定场景下可能存在上下文理解或文本生成方面的局限性。
  • 强调需以符合伦理的方式使用模型,以防止错误信息或有害内容的传播。

致谢

特别感谢苏丹王子大学,尤其是机器人与物联网实验室。

联系方式

咨询请联系:riotu@psu.edu.sa。

大语言模型(LLMs)文本生成使用免责声明

对于ArabianGPT-0.3B生成的任何伤害、不准确信息或不当内容,我们不承担任何责任,用户使用和应用模型输出内容的风险由其自行承担。