🚀 al-baka-llama3-8b

Al Baka 是一个基于新发布的 LLAMA3-8B 模型进行实验性微调的模型，微调所使用的数据集为斯坦福 Alpaca 数据集的阿拉伯语版本 [Yasbok/Alpaca_arabic_instruct]。

模型概述

模型类型： Llama3-8B 微调模型
支持语言： 阿拉伯语
基础模型： [LLAMA-3-8B]
使用数据集： [Yasbok/Alpaca_arabic_instruct]

模型详情

该模型使用 [unsloth] 以 4 位精度进行微调。
训练仅进行了 1000 步，使用单张 Google Colab T4 NVIDIA GPU，显存为 15 GB。

目前该模型正处于实验性微调阶段，旨在通过短期微调评估 LLaMA-3 对阿拉伯语的响应情况。更大规模、更复杂的模型将很快推出。

推理代码：

from openmind import AutoTokenizer, AutoModelForCausalLM import openmind import torch import torch_npu import argparse

def parse_args(): parser = argparse.ArgumentParser() parser.add_argument( "--model_name_or_path", type=str, help="Path to model", default="LF_AICC/al-baka-llama3-8b-experimental", ) args = parser.parse_args() return args

args = parse_args() model = args.model_name_or_path

tokenizer = AutoTokenizer.from_pretrained(model) pipeline = openmind.pipeline( "text-generation", model=model, tokenizer=tokenizer, torch_dtype=torch.bfloat16, device_map="auto", ) sequences = pipeline( "<|im_start|>user\nDoes P=NP?<|im_end|>\n<|im_start|>assistant\n", max_length=256, do_sample=True, top_k=10, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id, ) for seq in sequences: print(f"Result: {seq['generated_text']}")