
| 模型 | 对齐方式 | 基础模型 | 教师模型 | MTBench (平均) * | MMLU(5-shot) |
|---|---|---|---|---|---|
| [Llama-2-13b-chat-hf] | RLHF | Llama-2-13b | 人工标注员 | 6.65 | 54.58 |
| [Orca-2-13b] | 渐进式训练 | Llama-2-13b | GPT-4 | 6.15 | 60.37 * |
| [WizardLM-13B-V1.2] | 进化式指令微调 | Llama-2-13b | GPT-4 | 7.20 | 54.83 |
| [Labradorite-13b] | 聊天机器人大规模对齐(LAB) | Llama-2-13b | Mixtral-8x7B-Instruct | 7.23 | 58.89 |
| [Mistral-7B-Instruct-v0.1] | SFT | Mistral-7B-v0.1 | - | 6.84 | 60.37 |
| [zephyr-7b-beta] | SFT/DPO | Mistral-7B-v0.1 | GPT-4 | 7.34 | 61.07 |
| [Mistral-7B-Instruct-v0.2] | SFT | Mistral-7B-v0.1 | - | 7.6** | 60.78 |
| [Merlinite-7b-lab] | 聊天机器人大规模对齐(LAB) | Mistral-7B-v0.1 | Mixtral-8x7B-Instruct | 7.66 | 64.88 |
| Granite-7b-lab | 聊天机器人大规模对齐(LAB) | Granite-7b-base | Mixtral-8x7B-Instruct | 6.69 | 51.91 |
[*] 除 Merlinite-7b-lab、Granite-7b-lab 和 [Labradorite-13b] 之外的模型数据来源于 [lmsys/chatbot-arena-leaderboard]
[**] 数据来源于 [MistralAI Release Blog]
LAB:Large-scale Alignment for chatBots(聊天机器人大规模对齐)是 IBM 研究院提出的一种基于合成数据的新型大语言模型对齐调优方法。Granite-7b-lab 是基于 Granite-7b-base 衍生的模型,采用 LAB 方法,并以 Mixtral-8x7b-Instruct 作为教师模型进行训练。
LAB 包含三个关键组件:

LAB 方法允许在已预训练模型上以增量方式添加新知识和技能,而不会发生灾难性遗忘。
分类体系是一个种子示例树,用于提示教师模型生成合成数据。分类体系使数据整理者或模型设计者能够轻松指定他们希望在大语言模型中包含的各种知识领域和技能。从高层次来看,这些可以分为三大类:知识、基础技能和组合技能。分类体系的叶节点是与一个或多个种子示例相关联的任务。

在合成数据生成过程中,与以往从整个池中均匀抽取种子示例的方法(即自我指令)不同,我们使用分类体系来驱动采样过程:对于每个知识/技能,我们仅使用叶节点内的本地示例作为种子来提示教师模型。 这使得教师模型能更好地利用每个节点的本地示例所定义的任务分布,而分类体系本身的多样性确保了整个生成过程覆盖广泛的任务范围,如下所示。反过来,这使得我们能够使用 Mixtral 8x7B 作为生成的教师模型,同时与 ORCA-2、WizardLM 和 Zephyr Beta 等依赖于由 GPT-4 等更大、更强大模型生成的合成数据的模型相比,表现出极具竞争力的性能。

为了添加新的特定领域知识,我们提供外部知识源(文档),并提示模型基于该文档生成问题和答案。 基础技能(如推理)和组合技能(如创意写作)是通过使用分类体系中的种子示例进行上下文学习来生成的。
此外,为确保数据的高质量和安全性,我们采取步骤检查问题和答案,确保它们有依据且安全。这是通过生成数据的同一教师模型来完成的。
我们的训练包括两个主要阶段:知识调优和技能调优。 知识调优分为两个步骤,第一步学习简单知识(短样本),第二步学习复杂知识(长样本)。 第二步使用包含第一步数据的重放缓冲区。 基础技能和组合技能都在技能调优阶段学习,其中使用了知识阶段数据的重放缓冲区。 重要的是,我们使用了一组与标准小规模监督微调截然不同的训练超参数:更大的批处理大小以及精心优化的学习率和调度器。

sys_prompt = "You are an AI language model developed by IBM Research. You are a cautious assistant. You carefully follow instructions. You are helpful and harmless and you follow ethical guidelines and promote positive behavior."
prompt = f'<|system|>\n{sys_prompt}\n<|user|>\n{inputs}\n<|assistant|>\n'
stop_token = '<|endoftext|>'为实现最佳推理性能,我们建议使用模型训练期间采用的系统提示词,因为根据所提供的指令不同,性能可能会有所差异。
偏见、风险与局限性
Granite-7b-lab 是一个基础模型,未经过任何安全对齐处理,因此可能会生成有问题的输出。在缺乏足够的安全防护措施和人类反馈强化学习(RLHF)的情况下,存在恶意利用这些模型生成虚假信息或有害内容的风险。我们强烈建议不要完全依赖特定语言模型来做重要决策或获取关键信息,因为要防止这些模型编造内容并非易事。此外,由于较小模型的规模和记忆能力有限,它们在无根据的生成场景中是否更容易出现幻觉现象,这一点尚不明确。这方面目前是研究的活跃领域,我们期待在该领域进行更深入的探索、理解和缓解工作。