HuggingFace镜像/Falcon3-10B-Instruct
模型介绍文件和版本分析
下载使用量0
drawing

Falcon3-10B-Instruct

Falcon3开放基础模型系列是一组预训练和指令调优的大型语言模型,参数规模从10亿到100亿不等。

本仓库包含Falcon3-10B-Instruct模型。在发布时,该模型在推理、语言理解、指令遵循、代码和数学任务上均达到了最先进的结果。Falcon3-10B-Instruct支持4种语言(英语、法语、西班牙语、葡萄牙语),上下文长度最长可达32K。

模型详情

  • 架构
    • 基于Transformer的因果解码器架构
    • 40个解码器块
    • 分组查询注意力(GQA)以实现更快推理:12个查询头和4个键值头
    • 更宽的头维度:256
    • 高RoPE值以支持长上下文理解:1000042
    • 使用SwiGLu激活函数和RMSNorm归一化
    • 32K上下文长度
    • 131K词汇量
  • 基于Falcon3-7B-Base深度扩展,使用1024块H100 GPU芯片,在包含网络文本、代码、STEM(科学、技术、工程、数学)、高质量和多语言数据的2万亿tokens数据集上训练
  • 在120万样本的STEM、对话、代码、安全和函数调用数据上进行后训练
  • 支持英语(EN)、法语(FR)、西班牙语(ES)、葡萄牙语(PT)
  • 由Technology Innovation Institute开发
  • 许可证:TII Falcon-LLM License 2.0
  • 模型发布日期:2024年12月

快速开始

点击展开
from transformers import AutoTokenizer, AutoModelForCausalLM


from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "tiiuae/Falcon3-10B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many hours in one day?"
messages = [
    {"role": "system", "content": "You are a helpful friendly assistant Falcon3 from TII, try to follow instructions as much as possible."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

基准测试

以下表格报告了我们的内部管道基准测试结果。

  • 我们使用 lm-evaluation harness。
  • 我们报告通过应用聊天模板和 fewshot_as_multiturn 获得的原始分数。
  • 所有模型均使用相同的批处理大小。
类别基准测试Yi-1.5-9B-ChatMistral-Nemo-Base-2407 (12B)Falcon3-10B-Instruct
通用MMLU (5-shot)68.866.073.9
MMLU-PRO (5-shot)38.834.344
IFEval57.863.478
数学GSM8K (5-shot)77.177.684.9
GSM8K (8-shot, COT)7680.484.6
MATH Lvl-5 (4-shot)3.35.922.1
推理Arc Challenge (25-shot)58.363.466.2
GPQA (0-shot)35.633.233.5
GPQA (0-shot, COT)1612.732.6
MUSR (0-shot)41.938.141.1
BBH (3-shot)50.647.558.4
常识理解PIQA (0-shot)76.478.278.4
SciQ (0-shot)61.776.490.4
Winogrande (0-shot)--71
OpenbookQA (0-shot)43.247.448.2
指令遵循MT-Bench (平均)8.38.68.2
Alpaca (WC)25.845.424.7
工具使用BFCL AST (平均)48.474.290.5
代码EvalPlus (0-shot) (平均)69.458.974.7
Multipl-E (0-shot) (平均)-34.545.8

实用链接

  • 查看我们的发布博客文章。
  • 如有任何问题,或想与我们的研究人员和开发人员交流,欢迎加入我们的Discord服务器。

技术报告

即将发布....

引用

如果Falcon3系列对您的工作有所帮助,欢迎引用我们。

@misc{Falcon3,
    title = {The Falcon 3 family of Open Models},
    author = {TII Team},
    month = {December},
    year = {2024}
}

Open LLM 排行榜评估结果

详细结果可查看此处

指标数值
平均值35.19
IFEval(零样本)78.17
BBH(三样本)44.82
MATH Lvl 5(四样本)25.91
GPQA(零样本)10.51
MuSR(零样本)13.61
MMLU-PRO(五样本)38.10