https://github.com/jzhang38/TinyLlama
TinyLlama 项目旨在预训练一个基于 1.1B 参数的 Llama 模型,并在 3 万亿 tokens 上进行训练。通过适当的优化,我们仅需 16 张 A100-40G GPU,就能在“短短”90 天内完成这一目标 🚀🚀。训练已于 2023 年 9 月 1 日启动。
我们采用了与 Llama 2 完全相同的架构和分词器。这意味着 TinyLlama 可以直接应用于许多基于 Llama 构建的开源项目中,即插即用。此外,TinyLlama 仅拥有 11 亿参数,非常轻量。这种轻量特性使其能够满足众多对计算资源和内存占用有严格限制的应用场景需求。
此聊天模型是在 [PY007/TinyLlama-1.1B-intermediate-step-240k-503b] 基础上进行微调得到的。所使用的数据集为 [openassistant-guananco]。
您需要安装 transformers>=4.31 版本。 更多信息请查阅 TinyLlama 的 GitHub 页面。
from openmind import AutoTokenizer
import openmind
import torch
model = "LF_AICC/TinyLlama-1.1B-Chat-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = openmind.pipeline(
"text-generation",
model=model,
torch_dtype=torch.float16,
device_map="auto",
)
prompt = "What are the values in open source projects?"
formatted_prompt = (
f"### Human: {prompt}### Assistant:"
)
sequences = pipeline(
formatted_prompt,
do_sample=True,
top_k=50,
top_p = 0.7,
num_return_sequences=1,
repetition_penalty=1.1,
max_new_tokens=500,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")