HuggingFace镜像/gemma-7b-it
模型介绍文件和版本分析
下载使用量0

通过 Unsloth 实现 Mistral、Gemma、Llama 2 的微调速度提升 5 倍,内存占用减少 70%!

✨ 免费微调

所有笔记本都对初学者友好!添加您的数据集,点击“全部运行”,您将获得一个速度提升 2 倍的微调模型,该模型可导出为 GGUF、vLLM 格式或上传至 Hugging Face。

Unsloth 支持的模型免费笔记本性能提升内存占用减少
Gemma 7b▶️ 在 Colab 上开始2.4 倍速58%
Mistral 7b▶️ 在 Colab 上开始2.2 倍速62%
Llama-2 7b▶️ 在 Colab 上开始2.2 倍速43%
TinyLlama▶️ 在 Colab 上开始3.9 倍速74%
CodeLlama 34b A100▶️ 在 Colab 上开始1.9 倍速27%
Mistral 7b 1xT4▶️ 在 Kaggle 上开始5 倍速*62%
DPO - Zephyr▶️ 在 Colab 上开始1.9 倍速19%
  • 此对话式笔记本适用于 ShareGPT ChatML / Vicuna 模板。
  • 此文本补全笔记本适用于原始文本。此DPO 笔记本可复现 Zephyr。
  • * Kaggle 提供 2 块 T4,但我们仅使用 1 块。由于开销原因,单块 T4 的速度提升可达 5 倍。

修改

  • 修改示例并添加npu支持;
  • 修改依赖项;

代码使用

import torch
from openmind import AutoTokenizer, AutoModelForCausalLM, is_torch_npu_available

if is_torch_npu_available():
  device = "npu:0"
else:
  device = "cpu"
tokenizer = AutoTokenizer.from_pretrained("SY_AICC/gemma-7b-it")
model = AutoModelForCausalLM.from_pretrained(
  "SY_AICC/gemma-7b-it",
  device_map=device,
  torch_dtype=torch.float16
)
input_text = "Write me a poem about Machine Learning."
input_ids = tokenizer(input_text, return_tensors="pt").to(device)

outputs = model.generate(**input_ids)
print(tokenizer.decode(outputs[0]))