HuggingFace镜像/stablelm-2-1_6b-chat
模型介绍文件和版本分析
下载使用量0

StableLM 2 Chat 1.6B

模型说明

Stable LM 2 Chat 1.6B 是一个拥有 16 亿参数的指令调优语言模型,其灵感来源于 HugginFaceH4 的 Zephyr 7B 训练流程。该模型在公开可用数据集和合成数据集的混合数据上进行训练,并采用了 直接偏好优化(DPO) 技术。

使用方法

StableLM 2 1.6B Chat 使用以下 ChatML 格式:

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('stabilityai/stablelm-2-1_6b-chat')
model = AutoModelForCausalLM.from_pretrained(
    'stabilityai/stablelm-2-1_6b-chat',
    device_map="auto",
)

prompt = [{'role': 'user', 'content': 'Implement snake game using pygame'}]
inputs = tokenizer.apply_chat_template(
    prompt,
    add_generation_prompt=True,
    return_tensors='pt'
)

tokens = model.generate(
    inputs.to(model.device),
    max_new_tokens=100,
    temperature=0.7,
    do_sample=True
)
output = tokenizer.decode(tokens[:, inputs.shape[-1]:][0], skip_special_tokens=False)

print(output)

模型详情

  • 开发机构:Stability AI
  • 模型类型:StableLM 2 Chat 1.6B模型是一个基于Transformer解码器架构的自回归语言模型。
  • 支持语言:英语
  • 相关论文:Stable LM 2 1.6B 技术报告
  • 使用库:Alignment Handbook
  • 微调基础模型:https://huggingface.co/stabilityai/stablelm-2-1_6b
  • 许可证:StabilityAI 非商业研究社区许可证。如果您希望将此模型用于商业产品或目的,请通过此处与我们联系以了解更多信息。
  • 联系方式:有关模型的问题和意见,请发送电子邮件至lm@stability.ai

训练数据集

该数据集由HuggingFace Hub上可用的多种开放大型数据集混合而成:

  1. 监督微调(SFT)数据集
  • HuggingFaceH4/ultrachat_200k
  • meta-math/MetaMathQA
  • WizardLM/WizardLM_evol_instruct_V2_196k
  • Open-Orca/SlimOrca
  • openchat/openchat_sharegpt4_dataset
  • LDJnr/Capybara
  • hkust-nlp/deita-10k-v0
  • teknium/OpenHermes-2.5
  1. 偏好数据集:
  • allenai/ultrafeedback_binarized_cleaned
  • Intel/orca_dpo_pairs
  • argilla/dpo-mix-7k

性能表现

MT-Bench

模型规模MT-Bench 得分
Mistral-7B-Instruct-v0.27B7.61
Llama2-Chat70B6.86
stablelm-zephyr-3b3B6.64
MPT-30B-Chat30B6.39
stablelm-2-1_6b-chat1.6B5.83
stablelm-2-zephyr-1.6b1.6B5.42
Falcon-40B-Instruct40B5.17
Qwen-1.8B-Chat1.8B4.95
dolphin-2.6-phi-22.7B4.93
phi-22.7B4.29
TinyLlama-1.1B-Chat-v1.01.1B3.46

OpenLLM 排行榜

模型规模平均分ARC Challenge(acc_norm)HellaSwag(acc_norm)MMLU(acc_norm)TruthfulQA(mc2)Winogrande(acc)Gsm8k(acc)
microsoft/phi-22.7B61.32%61.09%75.11%58.11%44.47%74.35%54.81%
stabilityai/stablelm-2-1_6b-chat1.6B50.80%43.94%69.22%41.59%46.52%64.56%38.96%
stabilityai/stablelm-2-zephyr-1_6b1.6B49.89%43.69%69.34%41.85%45.21%64.09%35.18%
microsoft/phi-1_51.3B47.69%52.90%63.79%43.89%40.89%72.22%12.43%
stabilityai/stablelm-2-1_6b1.6B45.54%43.43%70.49%38.93%36.65%65.90%17.82%
mosaicml/mpt-7b7B44.28%47.70%77.57%30.80%33.40%72.14%4.02%
KnutJaegersberg/Qwen-1_8B-Llamaified*1.8B44.75%37.71%58.87%46.37%39.41%61.72%24.41%
openlm-research/open_llama_3b_v23B40.28%40.27%71.60%27.12%34.78%67.01%0.91%
iiuae/falcon-rw-1b1B37.07%35.07%63.56%25.28%35.96%62.04%0.53%
TinyLlama/TinyLlama-1.1B-3T1.1B36.40%33.79%60.31%26.04%37.32%59.51%1.44%

使用方式与局限性

预期用途

本模型旨在用于类聊天应用程序。开发人员必须在其特定用例中评估模型的安全性能。请阅读下文安全与局限性部分了解更多信息。

局限性与偏见

本模型未针对对抗性输入进行训练。我们强烈建议将此模型与输入和输出分类器配合使用,以防止产生有害响应。

通过我们的内部红队测试,我们发现,虽然该模型在未被提示的情况下不会输出有害信息,但它会编造许多事实。当用户提出要求时,它也可能输出具有潜在危害的内容或错误信息。

使用此模型时,需要对输入和输出设置防护措施,以确保返回的任何输出都不是错误信息或有害内容。

此外,由于每个用例都是独特的,我们建议运行您自己的测试套件,以确保该模型的适当性能。

最后,如果模型不适合您的应用程序,或者用于可能对他人造成故意或非故意伤害的任何应用程序,请不要使用这些模型。

How to Cite

@misc{StableLM-2-1.6B,
      url={[https://huggingface.co/stabilityai/stablelm-2-1.6b](https://huggingface.co/stabilityai/stablelm-2-1.6b)},
      title={Stable LM 2 1.6B},
      author={Stability AI Language Team}
}