HuggingFace镜像/solar-pro-preview-instruct
模型介绍文件和版本分析
下载使用量0

Solar Pro Preview:单GPU即可运行的最智能LLM

概述

我们推出了Solar Pro Preview,这是一款拥有220亿参数的先进大型语言模型(LLM),专为单GPU部署而设计。与参数小于300亿的LLM相比,Solar Pro Preview展现出更卓越的性能,其表现甚至可与规模达自身三倍以上的模型(如拥有700亿参数的Llama 3.1)相媲美。

Solar Pro Preview的开发基于我们先前深度扩展方法的增强版本,该方法将拥有140亿参数的Phi-3-medium模型扩展至220亿参数,旨在能在配备80GB VRAM的GPU上运行。我们精心制定的训练策略和数据集显著提升了Phi-3-medium的性能,尤其在MMLU-Pro和IFEval基准测试中表现突出,这两项基准均被广泛认可用于评估模型的知识水平和指令遵循能力。

Solar Pro Preview是正式版Solar Pro的预发布版本,在语言覆盖范围上存在一定限制,最大上下文长度为4K。尽管如此,我们相信Solar Pro Preview不仅是一款高效且功能强大的模型,还具备进一步扩展以支持更多语言和功能的潜力。正式版Solar Pro将于2024年11月发布,届时将提供英语以外的更多语言支持以及更长的上下文窗口。如欲了解最新动态,请订阅我们的邮件列表。如果您对该模型有任何反馈或疑问,欢迎访问我们的模型讨论区与我们直接交流。

使用方法

Solar Pro Preview 是一款指令调优语言模型。该模型专为遵循指令和参与对话任务而设计。

对话模板

作为指令调优模型,Solar Pro Preview 使用 ChatML 模板,以在对话和指令遵循任务中实现最佳性能。这种方式与模型的训练数据相契合,能够产生更准确且相关的响应。例如,采用 ChatML 模板格式化的问题如下所示,模型会在 <|im_start|>assistant 之后生成答案。请注意,Solar Pro Preview 目前不支持系统提示词。此功能将在正式版本中推出。

<|im_start|>user
Please, introduce yourself.<|im_end|>
<|im_start|>assistant

文本生成

以下是一个推理代码示例,详细说明了模型加载、聊天模板应用以及模型回答生成的过程。

# Install requirements
# !pip install transformers==4.44.2 torch==2.3.1 flash_attn==2.5.8 accelerate==0.31.0

# Load model
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("upstage/solar-pro-preview-instruct")
model = AutoModelForCausalLM.from_pretrained(
    "upstage/solar-pro-preview-instruct",
    device_map="cuda",  
    torch_dtype="auto",  
    trust_remote_code=True,
)
# Apply chat template
messages = [
    {"role": "user", "content": "Please, introduce yourself."},
]
prompt = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to(model.device)
# Generate text
outputs = model.generate(prompt, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))

Solar Pro Preview 也可作为 API 在 Upstage Console 中使用,我们还提供了其他易于使用的方法。如果您想了解这些选项,请访问我们的 博客页面。

评估

Solar Pro Preview 通过多种基准进行了评估。

Solar-pro-previewPhi-3-medium-4K-instructPhi-3.5-MoE-instructGemma 2 27B ITLlama-3.1-8B-instructLlama-3.1-70B-instruct
发布日期2024.09.082024.05.022024.08.202024.06.252024.06.182024.06.16
模型大小22B14B41.9B (6.6B)27B8B70B
许可证MITMITMITgemmallama3.1llama3.1
MMLU79.1478.0278.6676.1368.2582.09
MMLU Pro52.1147.5146.9945.6837.8853.01
IFEval84.3764.3769.1575.3677.4084.13
ARC-C68.8666.5568.3474.0660.2470.39
GPQA36.3835.7834.3836.3835.2641.06
HellaSwag86.3685.6885.9786.0280.0886.42
EQBench77.9176.7877.2280.3265.8082.52
BigBench Hard67.3163.0962.5864.8851.0669.54
MUSR45.8542.2846.7945.6729.6847.22
GSM8K89.6984.7682.2662.8575.9792.12
MBPP61.5960.27N/A (*)63.0852.2065.51

(*) 由于该模型倾向于生成聊天模板,因此无法准确确定分数。

评估协议

为便于复现我们的评估结果,下方列出了所使用的评估工具及设置。所有评估均在 NVIDIA DGX H100 上进行。

评估任务评估设置指标评估工具
MMLU5-shotmacro_avg / acclm-eval-harness #928e8bb
MMLU Pro5-shotmacro_avg / acclm-eval-harness #928e8bb
IFEval0-shot, chat_templateprompt_level_strict_acc 与 instruction_level_strict_acc 的均值lm-eval-harness #928e8bb
ARC-C25-shotacc_normlm-eval-harness #928e8bb
GPQA0-shotacc_normlm-eval-harness #928e8bb
HellaSwag10-shotacc_normlm-eval-harness #928e8bb
EQBench0-shot, chat_templateeqbench scorelm-eval-harness #928e8bb
BigBench Hard3-shotmacro_avg / acc_normlm-eval-harness #928e8bb
MUSR0-shotmacro_avg / acc_normlm-eval-harness #928e8bb
GSM8K8-shot, CoTacc, exact_match & strict_extractlm-eval-harness #928e8bb
MBPP0-shotpass@1bigcode-evaluation-harness #0f3e95f

不同的批处理大小以及 GPU 类型等实验环境可能会导致结果略有差异。

联系我们

如对模型有任何疑问或建议,请访问讨论区。

了解更多:

  • 与 Solar Pro Preview 对话
  • Solar Pro Preview 博客
  • Solar Pro Preview 开发者文档

也可尝试:

  • Document Parse:业界领先的模型,可将复杂文档文件转换为与 LLM 兼容的 HTML 格式。
  • Solar DocVision Preview:专注于文档的视觉 LLM。