新版本:https://huggingface.co/CausalLM/14B
这是 Qwen/Qwen-7B-Chat(2023年9月25日之前的原始版本)的LLaMAfied复刻版,经过重新校准以适配原始LLaMA/LLaMA-2类似的模型结构。
您可以使用LlamaForCausalLM进行模型推理,这与LLaMA/LLaMA-2模型的使用方式相同(使用由原始tiktoken转换而来的GPT2Tokenizer,由vonjack提供)。
该模型已进行去品牌化编辑,这意味着模型将不再自称为Qwen。
到目前为止,该模型已进行了权重的数值对齐和初步的强化学习,以与原始模型保持一致。通过模型编辑方法,一些错误和过时知识已得到处理。此模型与原始版本完全等效,未针对下游任务或其他大规模对话数据集进行专门的有监督微调。
提示词格式:chatml
当前MMLU:53.48
当前CEval(验证集):54.13
MMLU - stem ACC: 46.40 Humanities ACC: 47.61 other ACC: 61.31 social ACC: 61.78 AVERAGE ACC:53.48
CEval (val) - STEM acc: 45.28 Social Science acc: 66.19 Humanities acc: 58.76 Other acc: 54.62 Hard acc:28.64 AVERAGE acc:54.13问题:与原始 Qwen-7B-Chat 在 MMLU 上 53.90 分和 CEval(验证集)上 54.18 分的成绩相比,由于对齐不足,我们的分数略有下降[MMLU 下降 0.42,CEval(验证集)下降 0.05]。
这是 通义千问 Qwen/Qwen-7B-Chat(2023 年 9 月 25 日之前的原始版本)的 LLaMA 化版本,经过重新校准以适应原始的类 LLaMA/LLaMA-2 模型结构。
您可以使用 LlamaCausalLM 进行模型推理,与 LLaMA/LLaMA-2 保持一致(使用由 vonjack 从原始 tiktoken 转换而来的 GPT2Tokenizer 分词器)。
模型已通过编辑实现白标化,不再自称通义千问。
到目前为止,该模型已进行权重的数值对齐和初步强化学习,以与原始模型保持一致。一些错误和过时知识已通过模型编辑方法得到解决。该模型与原始版本完全等效,尚未针对下游任务或其他广泛对话数据集进行任何专门的监督微调。
提示词格式:chatml
当前 MMLU:53.48
当前 CEval(验证集):54.13
MMLU - stem ACC: 46.40 Humanities ACC: 47.61 other ACC: 61.31 social ACC: 61.78 AVERAGE ACC:53.48
CEval (val) - STEM acc: 45.28 Social Science acc: 66.19 Humanities acc: 58.76 Other acc: 54.62 Hard acc:28.64 AVERAGE acc:54.13问题:相比原本的 Qwen-7B-Chat 的 MMLU 分数 53.90 和 CEval (val) 分数 54.18,由于重新对齐不够充分,分数均略有下降,分别为 [-0.42(MMLU)、-0.05(CEval (val))]。