我们推出了 LUXIA-21.4B-Alignment,这是一款拥有 214 亿参数的大型语言模型(LLM),在各类自然语言处理(NLP)任务中均展现出卓越性能。
在参数规模 350 亿以下的模型中,它的性能达到了前所未有的最先进水平,甚至超越了 720 亿参数模型和 340 亿参数×2 的 MoE(混合专家)模型。详细信息请参见评估结果表。
luxia-21.4b-alignment 模型是在 luxia-21.4b-instruct 模型的基础上通过 DPO 训练得到的,而 luxia-21.4b-instruct 模型则是 luxia-21.4b 模型的 SFT 训练版本。我们计划很快发布预训练模型和指令微调模型。
我们以 internlm2-20b-llama 模型为基础,通过直通法扩展网络层数,构建了基础模型。为恢复所构建模型的性能,我们进行了持续预训练。
我们采用了包括监督微调(SFT)在内的最先进指令微调方法。
我们使用了以下数据集的混合:
我们采用了包括直接偏好优化(DPO)在内的最先进指令微调方法。
我们使用了以下数据集的混合:
我们使用 https://github.com/swj0419/detect-pretrain-code-contamination/tree/master 生成污染数据,以 internlm2-20b-llama 作为参考模型。 luxia-21.4b-alignment-v1.2 的测试结果如下:
| 模型 | ARC | MMLU | TruthfulQA | GSM8K |
|---|---|---|---|---|
| luxia-21.4b-alignment-v1.2 | 0.00 | 0.07 | 0.13 | 0.34 |
| 模型 | ARC | HellaSwag | MMLU | TruthfulQA | Winogrande | GSM8K |
|---|---|---|---|---|---|---|
| luxia-21.4b-alignment-v1.2 | 77.73 | 90.86 | 67.86 | 79.16 | 86.27 | 66.94 |
# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
"saltlux/luxia-21.4b-alignment-v1.2",
device_map="auto",
torch_dtype=torch.bfloat16,
)欢迎在讨论区提出任何问题和建议。