stablelm-2-1_6b-chat:可用于开发聊天类应用，实现对话交互功能。该项目是16亿参数的指令调优语言模型，基于transformer解码器架构，采用DPO技术训练，支持ChatML格式，适用于英文场景下的智能对话任务。【此简介由AI生成】 - AtomGit AI社区

`StableLM 2 Chat 1.6B`

模型说明

Stable LM 2 Chat 1.6B 是一个拥有 16 亿参数的指令调优语言模型，其灵感来源于 HugginFaceH4 的 Zephyr 7B 训练流程。该模型在公开可用数据集和合成数据集的混合数据上进行训练，并采用了直接偏好优化（DPO）技术。

使用方法

StableLM 2 1.6B Chat 使用以下 ChatML 格式：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('stabilityai/stablelm-2-1_6b-chat')
model = AutoModelForCausalLM.from_pretrained(
    'stabilityai/stablelm-2-1_6b-chat',
    device_map="auto",
)

prompt = [{'role': 'user', 'content': 'Implement snake game using pygame'}]
inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors='pt'
)

tokens = model.generate(
    inputs.to(model.device),
    max_new_tokens=100,
    temperature=0.7,
    do_sample=True
)
output = tokenizer.decode(tokens[:, inputs.shape[-1]:][0], skip_special_tokens=False)

print(output)

模型详情

开发机构：Stability AI
模型类型：StableLM 2 Chat 1.6B模型是一个基于Transformer解码器架构的自回归语言模型。
支持语言：英语
相关论文：Stable LM 2 1.6B 技术报告
使用库：Alignment Handbook
微调基础模型：https://huggingface.co/stabilityai/stablelm-2-1_6b
许可证：StabilityAI 非商业研究社区许可证。如果您希望将此模型用于商业产品或目的，请通过此处与我们联系以了解更多信息。
联系方式：有关模型的问题和意见，请发送电子邮件至lm@stability.ai

训练数据集

该数据集由HuggingFace Hub上可用的多种开放大型数据集混合而成：

监督微调（SFT）数据集

HuggingFaceH4/ultrachat_200k
meta-math/MetaMathQA
WizardLM/WizardLM_evol_instruct_V2_196k
Open-Orca/SlimOrca
openchat/openchat_sharegpt4_dataset
LDJnr/Capybara
hkust-nlp/deita-10k-v0
teknium/OpenHermes-2.5

偏好数据集：

allenai/ultrafeedback_binarized_cleaned
Intel/orca_dpo_pairs
argilla/dpo-mix-7k

性能表现

MT-Bench

模型	规模	MT-Bench 得分
Mistral-7B-Instruct-v0.2	7B	7.61
Llama2-Chat	70B	6.86
stablelm-zephyr-3b	3B	6.64
MPT-30B-Chat	30B	6.39
stablelm-2-1_6b-chat	1.6B	5.83
stablelm-2-zephyr-1.6b	1.6B	5.42
Falcon-40B-Instruct	40B	5.17
Qwen-1.8B-Chat	1.8B	4.95
dolphin-2.6-phi-2	2.7B	4.93
phi-2	2.7B	4.29
TinyLlama-1.1B-Chat-v1.0	1.1B	3.46

OpenLLM 排行榜

模型	规模	平均分	ARC Challenge（acc_norm）	HellaSwag（acc_norm）	MMLU（acc_norm）	TruthfulQA（mc2）	Winogrande（acc）	Gsm8k（acc）
microsoft/phi-2	2.7B	61.32%	61.09%	75.11%	58.11%	44.47%	74.35%	54.81%
stabilityai/stablelm-2-1_6b-chat	1.6B	50.80%	43.94%	69.22%	41.59%	46.52%	64.56%	38.96%
stabilityai/stablelm-2-zephyr-1_6b	1.6B	49.89%	43.69%	69.34%	41.85%	45.21%	64.09%	35.18%
microsoft/phi-1_5	1.3B	47.69%	52.90%	63.79%	43.89%	40.89%	72.22%	12.43%
stabilityai/stablelm-2-1_6b	1.6B	45.54%	43.43%	70.49%	38.93%	36.65%	65.90%	17.82%
mosaicml/mpt-7b	7B	44.28%	47.70%	77.57%	30.80%	33.40%	72.14%	4.02%
KnutJaegersberg/Qwen-1_8B-Llamaified*	1.8B	44.75%	37.71%	58.87%	46.37%	39.41%	61.72%	24.41%
openlm-research/open_llama_3b_v2	3B	40.28%	40.27%	71.60%	27.12%	34.78%	67.01%	0.91%
iiuae/falcon-rw-1b	1B	37.07%	35.07%	63.56%	25.28%	35.96%	62.04%	0.53%
TinyLlama/TinyLlama-1.1B-3T	1.1B	36.40%	33.79%	60.31%	26.04%	37.32%	59.51%	1.44%

使用方式与局限性

预期用途

本模型旨在用于类聊天应用程序。开发人员必须在其特定用例中评估模型的安全性能。请阅读下文安全与局限性部分了解更多信息。

局限性与偏见

本模型未针对对抗性输入进行训练。我们强烈建议将此模型与输入和输出分类器配合使用，以防止产生有害响应。

通过我们的内部红队测试，我们发现，虽然该模型在未被提示的情况下不会输出有害信息，但它会编造许多事实。当用户提出要求时，它也可能输出具有潜在危害的内容或错误信息。

使用此模型时，需要对输入和输出设置防护措施，以确保返回的任何输出都不是错误信息或有害内容。

此外，由于每个用例都是独特的，我们建议运行您自己的测试套件，以确保该模型的适当性能。

最后，如果模型不适合您的应用程序，或者用于可能对他人造成故意或非故意伤害的任何应用程序，请不要使用这些模型。

How to Cite

@misc{StableLM-2-1.6B,
      url={[https://huggingface.co/stabilityai/stablelm-2-1.6b](https://huggingface.co/stabilityai/stablelm-2-1.6b)},
      title={Stable LM 2 1.6B},
      author={Stability AI Language Team}
}