h2o-danube2-1.8b-base是由H2O.ai训练的基础模型,拥有18亿参数。详细信息请参阅我们的技术报告。我们发布了该模型的三个版本:
| 模型名称 | 描述 |
|---|---|
| h2oai/h2o-danube2-1.8b-base | 基础模型 |
| h2oai/h2o-danube2-1.8b-sft | SFT微调模型 |
| h2oai/h2o-danube2-1.8b-chat | SFT + DPO微调模型 |
我们调整了Llama 2架构,使其总参数约为18亿。我们使用Mistral分词器,词汇量为32,000,并将模型训练至8,192的上下文长度。
模型架构详情如下:
| 超参数 | 值 |
|---|---|
| n_layers | 24 |
| n_heads | 32 |
| n_query_groups | 8 |
| n_embd | 2560 |
| vocab size | 32000 |
| sequence length | 8192 |
这是一个预训练的基础模型。对于您的任务,您可能需要进行特定于应用的微调。我们还提供了聊天微调版本:h2oai/h2o-danube2-1.8b-chat。
from openmind import pipeline, is_torch_npu_available
from openmind_hub import snapshot_download
if is_torch_npu_available():
device = "npu:0"
else:
device = "cpu"
generate_text = pipeline(
model="SY_AICC/SY_AICC/h2o-danube2-1.8b-base",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device=device,)
output = generate_text(
"Why is drinking water so healthy?",
max_new_tokens=100)
print(res[0]["generated_text"])在相似规模的模型中,h2o-danube2-1.8b-base 在 Hugging Face Open LLM 排行榜的各项基准测试中平均表现最佳 🤗
| 模型 | 规模 | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8k | 平均值 |
|---|---|---|---|---|---|---|---|---|
| StableLM2-1.6B | 1.6B | 43.34 | 70.45 | 38.95 | 36.78 | 64.56 | 17.44 | 45.25 |
| Gemma-2B | 2.5B | 48.46 | 71.65 | 41.68 | 33.13 | 66.77 | 17.36 | 46.51 |
| Qwen1.5-1.8B | 1.8B | 37.88 | 61.42 | 46.71 | 39.43 | 60.30 | 33.59 | 46.55 |
| Phi-1.5 | 1.3B | 52.90 | 63.79 | 43.89 | 40.89 | 72.22 | 12.43 | 47.69 |
| H2O-Danube2 | 1.8B | 43.52 | 73.06 | 40.05 | 38.09 | 68.43 | 29.34 | 48.75 |
在使用本仓库提供的大型语言模型前,请仔细阅读本免责声明。您对本模型的使用即表示您同意以下条款和条件。
通过使用本仓库提供的大型语言模型,您同意接受并遵守本免责声明中所述的条款和条件。如果您不同意本免责声明的任何部分,您应避免使用该模型及其生成的任何内容。