Qwen2-0.5B

简介

Qwen2 是新一代 Qwen 大语言模型系列。针对 Qwen2，我们发布了一系列基础语言模型和指令微调语言模型，参数规模从 0.5B 到 72B 不等，其中包括混合专家（Mixture-of-Experts）模型。本仓库包含 Qwen2 0.5B 基础语言模型。

与当前最先进的开源语言模型（包括此前发布的 Qwen1.5）相比，Qwen2 在一系列针对语言理解、文本生成、多语言能力、代码生成、数学运算、推理等任务的基准测试中，普遍超越了大多数开源模型，并展现出与专有模型相竞争的实力。

更多详情，请参阅我们的博客、GitHub 和文档。

模型详情

Qwen2 是一个语言模型系列，包含不同规模的解码器语言模型。对于每种规模，我们都会发布基础语言模型和对齐后的对话模型。该系列模型基于 Transformer 架构，采用 SwiGLU 激活函数、注意力 QKV 偏置、分组查询注意力（group query attention）等技术。此外，我们还改进了分词器，使其能够适应多种自然语言和代码。

环境要求

Qwen2 的代码已集成到最新版的 Hugging Face Transformers 库中，建议您安装 transformers>=4.37.0，否则可能会遇到以下错误：

KeyError: 'qwen2'

使用说明

我们不建议您直接使用基础语言模型进行文本生成。相反，您可以在此模型上进行后训练，例如SFT、RLHF、持续预训练等。

性能表现

基础模型的评估主要关注模型在自然语言理解、通用问答、代码生成、数学运算、科学知识、推理能力、多语言能力等方面的表现。

评估所用数据集包括：

英文任务：MMLU（5-shot）、MMLU-Pro（5-shot）、GPQA（5-shot）、Theorem QA（5-shot）、BBH（3-shot）、HellaSwag（10-shot）、Winogrande（5-shot）、TruthfulQA（0-shot）、ARC-C（25-shot）

代码任务：EvalPlus（0-shot）（HumanEval、MBPP、HumanEval+、MBPP+）、MultiPL-E（0-shot）（Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript）

数学任务：GSM8K（4-shot）、MATH（4-shot）

中文任务：C-Eval（5-shot）、CMMLU（5-shot）

多语言任务：Multi-Exam（M3Exam 5-shot、IndoMMLU 3-shot、ruMMLU 5-shot、mMMLU 5-shot）、Multi-Understanding（BELEBELE 5-shot、XCOPA 5-shot、XWinograd 5-shot、XStoryCloze 0-shot、PAWS-X 5-shot）、Multi-Mathematics（MGSM 8-shot）、Multi-Translation（Flores-101 5-shot）

Qwen2-0.5B 与 Qwen2-1.5B 性能对比

数据集	Phi-2	Gemma-2B	MiniCPM	Qwen1.5-1.8B	Qwen2-0.5B	Qwen2-1.5B
非嵌入参数数量	2.5B	2.0B	2.4B	1.3B	0.35B	1.3B
MMLU	52.7	42.3	53.5	46.8	45.4	56.5
MMLU-Pro	-	15.9	-	-	14.7	21.8
Theorem QA	-	-	-	-	8.9	15.0
HumanEval	47.6	22.0	50.0	20.1	22.0	31.1
MBPP	55.0	29.2	47.3	18.0	22.0	37.4
GSM8K	57.2	17.7	53.8	38.4	36.5	58.5
MATH	3.5	11.8	10.2	10.1	10.7	21.7
BBH	43.4	35.2	36.9	24.2	28.4	37.2
HellaSwag	73.1	71.4	68.3	61.4	49.3	66.6
Winogrande	74.4	66.8	-	60.3	56.8	66.2
ARC-C	61.1	48.5	-	37.9	31.5	43.9
TruthfulQA	44.5	33.1	-	39.4	39.7	45.9
C-Eval	23.4	28.0	51.1	59.7	58.2	70.6
CMMLU	24.2	-	51.1	57.8	55.1	70.3

引用说明

如果您觉得我们的工作对您有所帮助，欢迎引用我们的成果。

@article{qwen2,
  title={Qwen2 Technical Report},
  year={2024}
}

简介