HuggingFace镜像/Falcon3-7B-Instruct
模型介绍文件和版本分析
下载使用量0
drawing

Falcon3-7B-Instruct

Falcon3开放基础模型系列是一组预训练和指令调优的大型语言模型,参数规模从10亿到100亿不等。

本仓库包含Falcon3-7B-Instruct模型。该模型在推理、语言理解、指令遵循、代码和数学任务上(发布时)达到了最先进的结果。 Falcon3-7B-Instruct支持4种语言(英语、法语、西班牙语、葡萄牙语),上下文长度可达32K。

模型详情

  • 架构
    • 基于Transformer的因果解码器架构
    • 28个解码器块
    • 分组查询注意力(GQA)以实现更快推理:12个查询头和4个键值头
    • 更宽的头维度:256
    • 高RoPE值以支持长上下文理解:1000042
    • 使用SwiGLU和RMSNorm
    • 32K上下文长度
    • 131K词汇量
  • 使用1024块H100 GPU芯片,在包含网络文本、代码、STEM、高质量和多语言数据的14万亿tokens数据集上进行预训练
  • 在120万样本的STEM、对话、代码、安全和函数调用数据上进行后训练
  • 支持英语、法语、西班牙语、葡萄牙语
  • 由Technology Innovation Institute开发
  • 许可证:TII Falcon-LLM License 2.0
  • 模型发布日期:2024年12月

快速开始

点击展开
from transformers import AutoTokenizer, AutoModelForCausalLM


from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "tiiuae/Falcon3-7B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"]
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many hours in one day?"
messages = [
    {"role": "system", "content": "You are a helpful friendly assistant Falcon3 from TII, try to follow instructions as much as possible."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

基准测试

我们在下表中报告了官方HuggingFace排行榜的标准化评估结果,具体可参考Open LLM Leaderboard Evaluation Results。

基准测试Llama-3.1-8B-InstructQwen2.5-7B-InstructFalcon3-7B-Instruct
IFEval78.5675.8576.12
BBH(3-shot)29.8934.8937.92
MATH Lvl-5(4-shot)19.340.0031.87
GPQA(0-shot)2.355.488.05
MUSR(0-shot)8.418.4521.17
MMLU-PRO(5-shot)30.6836.5234.30

此外,我们在下表中报告了内部流水线基准测试结果。

  • 我们使用lm-evaluation harness。
  • 我们报告通过应用聊天模板和fewshot_as_multiturn获得的原始分数。
  • 所有模型均使用相同的批处理大小。
类别基准测试Llama-3.1-8B-InstructQwen2.5-7B-InstructFalcon3-7B-Instruct
通用能力MMLU(5-shot)68.273.570.5
MMLU-PRO(5-shot)36.443.140.7
IFEval78.874.776.5
数学能力GSM8K(5-shot)82.672.081.4
GSM8K(8-shot,COT)85.476.679.7
MATH Lvl-5(4-shot)15.4-29.4
推理能力Arc Challenge(25-shot)58.657.862.6
GPQA(0-shot)33.53231.9
GPQA(0-shot,COT)9.613.822.3
MUSR(0-shot)38.64146.4
BBH(3-shot)48.654.152.4
常识理解PIQA(0-shot)78.973.778.8
SciQ(0-shot)80.250.994.7
Winogrande(0-shot)--70.4
OpenbookQA(0-shot)46.242.445.8
指令遵循MT-Bench(平均)7.98.58.4
Alpaca(WC)26.631.526.1
工具使用BFCL AST(平均)90.691.472.3

实用链接

  • 查看我们的 发布博客文章。
  • 如有任何问题,或想与我们的研究人员和开发人员交流,欢迎加入 我们的 Discord 服务器。

技术报告

即将发布....

引用

如果 Falcon3 系列对您的工作有所帮助,欢迎引用我们。

@misc{Falcon3,
    title = {The Falcon 3 family of Open Models},
    author = {TII Team},
    month = {December},
    year = {2024}
}