HuggingFace镜像/luxia-21.4b-alignment-v1.2
模型介绍文件和版本分析
下载使用量0

简介

我们推出了 LUXIA-21.4B-Alignment,这是一款拥有 214 亿参数的大型语言模型(LLM),在各类自然语言处理(NLP)任务中均展现出卓越性能。

在参数规模 350 亿以下的模型中,它的性能达到了前所未有的最先进水平,甚至超越了 720 亿参数模型和 340 亿参数×2 的 MoE(混合专家)模型。详细信息请参见评估结果表。

luxia-21.4b-alignment 模型是在 luxia-21.4b-instruct 模型的基础上通过 DPO 训练得到的,而 luxia-21.4b-instruct 模型则是 luxia-21.4b 模型的 SFT 训练版本。我们计划很快发布预训练模型和指令微调模型。

指令微调策略

luxia-21.4b

我们以 internlm2-20b-llama 模型为基础,通过直通法扩展网络层数,构建了基础模型。为恢复所构建模型的性能,我们进行了持续预训练。

luxia-21.4b-instruct 模型

我们采用了包括监督微调(SFT)在内的最先进指令微调方法。

我们使用了以下数据集的混合:

  • c-s-ale/alpaca-gpt4-data
  • Open-Orca/SlimOrca
  • 利用 Metamath 生成的内部数据

luxia-21.4b-alignment 模型

我们采用了包括直接偏好优化(DPO)在内的最先进指令微调方法。

我们使用了以下数据集的混合:

  • jondurbin/truthy-dpo-v0.1
  • abacusai/ARC_DPO_FewShot
  • abacusai/HellaSwag_DPO_FewShot

数据污染测试结果

我们使用 https://github.com/swj0419/detect-pretrain-code-contamination/tree/master 生成污染数据,以 internlm2-20b-llama 作为参考模型。 luxia-21.4b-alignment-v1.2 的测试结果如下:

模型ARCMMLUTruthfulQAGSM8K
luxia-21.4b-alignment-v1.20.000.070.130.34

开放大语言模型排行榜评估结果

模型ARCHellaSwagMMLUTruthfulQAWinograndeGSM8K
luxia-21.4b-alignment-v1.277.7390.8667.8679.1686.2766.94

使用说明

使用方法

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

许可证

  • saltlux/luxia-21.4b-alignment-v1.2:apache-2.0

联系我们

欢迎在讨论区提出任何问题和建议。