HuggingFace镜像/OLMo-2-0425-1B-SFT
模型介绍文件和版本分析
下载使用量0
OLMo Logo

OLMo 2 1B SFT April 2025 是 allenai/OLMo-2-0425-1B 模型的后训练版本,该模型已在 Tülu 3 数据集 的 OLMo 特定变体上进行了有监督微调。 Tülu 3 旨在除聊天外,在 MATH、GSM8K 和 IFEval 等多种任务上实现最先进的性能。 更多详情,请查阅 OLMo 2 论文 或 Tülu 3 论文!

OLMo 是一系列开源语言模型(Open Language Models),旨在推动语言模型科学的发展。 这些模型在 Dolma 数据集上训练而成。我们公开发布所有代码、检查点、日志以及相关的训练细节。

模型描述

  • 模型类型:在公开可用、合成及人工创建的混合数据集上训练的模型。
  • 语言(自然语言处理):主要为英语
  • 许可证:Apache 2.0
  • 微调基础模型:allenai/OLMo-2-0425-1B

模型来源

  • 项目页面:https://allenai.org/olmo
  • 代码仓库:
    • 核心仓库(训练、推理、微调等):https://github.com/allenai/OLMo-core
    • 评估代码:https://github.com/allenai/olmes
    • 进一步微调代码:https://github.com/allenai/open-instruct
  • 论文:https://arxiv.org/abs/2501.00656
  • 演示:https://playground.allenai.org/

安装

OLMo 2 1B 支持 transformers v4.48 或更高版本:

pip install transformers>=4.48

如果使用 vLLM,在 v0.7.4 版本发布前,你需要从主分支进行安装。

使用模型

通过 HuggingFace 加载

要通过 HuggingFace 加载模型,请使用以下代码片段:

from transformers import AutoModelForCausalLM

olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-SFT")

聊天模板

注意:由于配置的微小变化,此模板与之前的 OLMo 2 和 Tülu 3 模型不同。它在其余内容之前没有 bos 令牌。我们的其他模型在聊天模板的开头包含 <|endoftext|>。

我们模型的聊天模板格式如下:

<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>

或者使用展开的新行:

<|user|>
How are you doing?
<|assistant|>
I'm just a computer program, so I don't have feelings, but I'm functioning as expected. How can I assist you today?<|endoftext|>

它也嵌入在分词器中,用于 tokenizer.apply_chat_template。

中间检查点

为了促进 RL 微调研究,我们发布了模型在 RLVR 训练过程中的中间检查点。 模型权重每 20 个训练步骤保存一次,可在 HuggingFace 仓库的修订版本中获取。 例如,您可以通过以下方式加载:

olmo_model = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B-SFT", revision="step_200")

偏见、风险与局限性

OLMo-2 模型的安全训练有限,且不像 ChatGPT 那样在响应生成过程中设有实时过滤机制,因此该模型可能会产生有问题的输出(尤其是在被诱导的情况下)。 相关示例可参考 Falcon 180B 模型卡片。

性能表现

模型平均值AlpacaEval 2 LCBBHDROPGSM8KIFEvalMATHMMLUSafetyPopQATruthQA
OLMo 1B 072424.42.429.927.910.825.32.236.652.012.144.3
SmolLM2 1.7B34.25.839.830.945.351.620.334.352.416.445.3
Gemma 3 1B38.320.439.425.135.060.640.338.970.29.643.8
Llama 3.1 1B39.310.140.232.245.454.021.646.787.213.841.5
Qwen 2.5 1.5B41.77.445.813.466.244.240.659.777.615.546.5
---
OLMo 2 1B SFT36.92.432.833.852.150.513.236.493.212.742.1
OLMo 2 1B DPO40.69.533.034.559.067.114.139.989.912.346.4
OLMo 2 1B42.79.135.034.668.370.120.740.087.612.948.7

许可与使用

OLMo 2 采用 Apache 2.0 许可协议。 OLMo 2 旨在用于研究和教育目的。 更多信息,请参阅我们的负责任使用指南。

引用

@article{olmo20242olmo2furious,
      title={2 OLMo 2 Furious}, 
      author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
      year={2024},
      eprint={2501.00656},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.00656}, 
}