简介

我们推出了 LUXIA-21.4B-Alignment，这是一款拥有 214 亿参数的大型语言模型（LLM），在各类自然语言处理（NLP）任务中均展现出卓越性能。

在参数规模 350 亿以下的模型中，它的性能达到了前所未有的最先进水平，甚至超越了 720 亿参数模型和 340 亿参数×2 的 MoE（混合专家）模型。详细信息请参见评估结果表。

luxia-21.4b-alignment 模型是在 luxia-21.4b-instruct 模型的基础上通过 DPO 训练得到的，而 luxia-21.4b-instruct 模型则是 luxia-21.4b 模型的 SFT 训练版本。我们计划很快发布预训练模型和指令微调模型。

指令微调策略

luxia-21.4b

我们以 internlm2-20b-llama 模型为基础，通过直通法扩展网络层数，构建了基础模型。为恢复所构建模型的性能，我们进行了持续预训练。

luxia-21.4b-instruct 模型

我们采用了包括监督微调（SFT）在内的最先进指令微调方法。

我们使用了以下数据集的混合：

c-s-ale/alpaca-gpt4-data
Open-Orca/SlimOrca
利用 Metamath 生成的内部数据

luxia-21.4b-alignment 模型

我们采用了包括直接偏好优化（DPO）在内的最先进指令微调方法。

我们使用了以下数据集的混合：

jondurbin/truthy-dpo-v0.1
abacusai/ARC_DPO_FewShot
abacusai/HellaSwag_DPO_FewShot

数据污染测试结果

我们使用 https://github.com/swj0419/detect-pretrain-code-contamination/tree/master 生成污染数据，以 internlm2-20b-llama 作为参考模型。 luxia-21.4b-alignment-v1.2 的测试结果如下：

模型	ARC	MMLU	TruthfulQA	GSM8K
luxia-21.4b-alignment-v1.2	0.00	0.07	0.13	0.34

开放大语言模型排行榜评估结果

模型	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
luxia-21.4b-alignment-v1.2	77.73	90.86	67.86	79.16	86.27	66.94

使用说明

使用方法

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

许可证

saltlux/luxia-21.4b-alignment-v1.2：apache-2.0

联系我们

欢迎在讨论区提出任何问题和建议。

简介

我们推出了 LUXIA-21.4B-Alignment，这是一款拥有 214 亿参数的大型语言模型（LLM），在各类自然语言处理（NLP）任务中均展现出卓越性能。

指令微调策略

luxia-21.4b

我们以 internlm2-20b-llama 模型为基础，通过直通法扩展网络层数，构建了基础模型。为恢复所构建模型的性能，我们进行了持续预训练。

luxia-21.4b-instruct 模型

我们采用了包括监督微调（SFT）在内的最先进指令微调方法。

我们使用了以下数据集的混合：

c-s-ale/alpaca-gpt4-data
Open-Orca/SlimOrca
利用 Metamath 生成的内部数据

luxia-21.4b-alignment 模型

我们采用了包括直接偏好优化（DPO）在内的最先进指令微调方法。

我们使用了以下数据集的混合：

jondurbin/truthy-dpo-v0.1
abacusai/ARC_DPO_FewShot
abacusai/HellaSwag_DPO_FewShot

数据污染测试结果

模型	ARC	MMLU	TruthfulQA	GSM8K
luxia-21.4b-alignment-v1.2	0.00	0.07	0.13	0.34

开放大语言模型排行榜评估结果

模型	ARC	HellaSwag	MMLU	TruthfulQA	Winogrande	GSM8K
luxia-21.4b-alignment-v1.2	77.73	90.86	67.86	79.16	86.27	66.94

使用说明

使用方法

# pip install transformers==4.35.2
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("saltlux/luxia-21.4b-alignment-v1.2")
model = AutoModelForCausalLM.from_pretrained(
    "saltlux/luxia-21.4b-alignment-v1.2",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

许可证

saltlux/luxia-21.4b-alignment-v1.2：apache-2.0

联系我们

欢迎在讨论区提出任何问题和建议。