HuggingFace镜像/OLMo-2-0425-1B
模型介绍文件和版本分析
下载使用量0

模型详情

OLMo Logo

OLMo 2 1B 模型卡片

我们推出了 OLMo 2 1B,它是 OLMo 2 系列中规模最小的模型。 OLMo 2 在 OLMo-mix-1124 上进行预训练,并在训练中期使用 Dolmino-mix-1124。

OLMo 2 是开源语言模型(Open Language Models)系列的最新成果,旨在助力语言模型科学研究。 我们已在 GitHub 上发布了所有代码、检查点、日志以及相关训练细节。

规模训练 tokens层数隐藏层大小注意力头数上下文长度
OLMo 2-1B4 万亿162048164096
OLMo 2-7B4 万亿324096324096
OLMo 2-13B5 万亿405120404096
OLMo 2-32B6 万亿645120404096

本次发布的核心模型包括以下内容:

阶段OLMo 2 1BOLMo 2 7BOLMo 2 13BOLMo 2 32B
基础模型allenai/OLMo-2-0425-1Ballenai/OLMo-2-1124-7Ballenai/OLMo-2-1124-13Ballenai/OLMo-2-0325-32B
监督微调(SFT)allenai/OLMo-2-0425-1B-SFTallenai/OLMo-2-1124-7B-SFTallenai/OLMo-2-1124-13B-SFTallenai/OLMo-2-0325-32B-SFT
直接偏好优化(DPO)allenai/OLMo-2-0425-1B-DPOallenai/OLMo-2-1124-7B-DPOallenai/OLMo-2-1124-13B-DPOallenai/OLMo-2-0325-32B-DPO
最终模型(RLVR)allenai/OLMo-2-0425-1B-Instructallenai/OLMo-2-1124-7B-Instructallenai/OLMo-2-1124-13B-Instructallenai/OLMo-2-0325-32B-Instruct
奖励模型(RM)allenai/OLMo-2-1124-7B-RM(与 7B 相同)

安装

OLMo 2 1B 在 transformers v4.48 或更高版本中受支持:

pip install transformers>=4.48

如果使用 vLLM,在 v0.7.4 版本发布前,您需要从主分支进行安装。

推理

您可以使用标准的 HuggingFace transformers 库来使用 OLMo:

from transformers import AutoModelForCausalLM, AutoTokenizer
olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B")
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMo-2-0425-1B")
message = ["Language modeling is "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
# optional verifying cuda
# inputs = {k: v.to('cuda') for k,v in inputs.items()}
# olmo = olmo.to('cuda')
response = olmo.generate(**inputs, max_new_tokens=100, do_sample=True, top_k=50, top_p=0.95)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])
>> 'Language modeling is  a key component of any text-based application, but its effectiveness...'

为了获得更快的性能,您可以使用以下方法对模型进行量化:

AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B",
    torch_dtype=torch.float16,
    load_in_8bit=True)  # Requires bitsandbytes

量化模型对数据类型和 CUDA 操作更为敏感。为避免潜在问题,建议使用以下方式将输入直接传递至 CUDA:

inputs.input_ids.to('cuda')

我们已发布这些模型的检查点。对于预训练,命名规范为stage1-stepXXX-tokensYYYB。对于包含“汤料”成分的检查点,命名规范为stage2-ingredientN-stepXXX-tokensYYYB

要使用HuggingFace加载特定的模型版本,只需添加参数revision:

olmo = AutoModelForCausalLM.from_pretrained("allenai/OLMo-2-0425-1B", revision="stage1-step140000-tokens294B")

或者,您可以通过以下代码片段访问模型的所有修订版本:

from huggingface_hub import list_repo_refs
out = list_repo_refs("allenai/OLMo-2-0425-1B")
branches = [b.name for b in out.branches]

微调

模型微调可基于最终检查点(此模型的main修订版)或多个中间检查点进行。目前提供两种微调方案。

  1. 使用OLMo仓库进行微调:
torchrun --nproc_per_node=8 scripts/train.py {path_to_train_config} \
    --data.paths=[{path_to_data}/input_ids.npy] \
    --data.label_mask_paths=[{path_to_data}/label_mask.npy] \
    --load_path={path_to_checkpoint} \
    --reset_trainer_state

更多文档,请参见 GitHub README。

  1. AI2 的 Open Instruct 代码库正在开发进一步的微调支持。详情请见 此处。

模型描述

  • 开发机构: Allen Institute for AI (Ai2)
  • 模型类型: Transformer 风格的自回归语言模型。
  • 语言(自然语言处理): 英语
  • 许可证: 代码和模型基于 Apache 2.0 许可证发布。
  • 联系方式: 技术咨询:olmo@allenai.org。媒体联络:press@allenai.org
  • 数据截止日期: 2023 年 12 月。

模型来源

  • 项目页面: https://allenai.org/olmo
  • 代码库:
    • 核心代码库(训练、推理、微调等):https://github.com/allenai/OLMo
    • 评估代码:https://github.com/allenai/OLMo-Eval
    • 进一步微调代码:https://github.com/allenai/open-instruct
  • 论文: https://arxiv.org/abs/2501.00656

评估

OLMo 2 1B 的核心模型结果如下。

指令模型平均值浮点运算次数×10²³AE2BBHDROPGSM8KIFEMATHMMLUSafetyPQATQA
闭源 API 模型
GPT-3.5 Turbo 012560.5n/a38.766.670.274.366.941.270.269.145.062.9
GPT 4o Mini 072465.7n/a49.765.936.383.083.567.982.284.939.064.8
开源权重模型 1-1.7B 参数
SmolLM2 1.7B34.21.15.839.830.945.351.620.334.352.416.445.3
Gemma 3 1B38.31.220.439.425.135.060.640.338.970.29.643.8
Llama 3.1 1B39.36.710.140.232.245.454.021.646.787.213.841.5
Qwen 2.5 1.5B41.71.77.445.813.466.244.240.659.777.615.546.5
完全开源模型
OLMo 1B 072424.40.222.429.927.910.825.32.236.652.012.144.3
OLMo 2 1B42.70.359.135.034.668.370.120.740.087.612.948.7

模型详情

训练

OLMo 2 1BOLMo 2 7BOLMo 2 13BOLMo 2 32B
预训练阶段 14 万亿 tokens
(1 个 epoch)
4 万亿 tokens
(1 个 epoch)
5 万亿 tokens
(1.2 个 epochs)
6 万亿 tokens
(1.5 个 epochs)
预训练阶段 2500 亿 tokens500 亿 tokens(3 次运行)
已合并
1000 亿 tokens(3 次运行)
3000 亿 tokens(1 次运行)
已合并
1000 亿 tokens(3 次运行)
3000 亿 tokens(1 次运行)
已合并
后训练SFT+DPO+GRPO
(偏好混合数据集)
SFT + DPO + PPO
(偏好混合数据集)
SFT + DPO + PPO
(偏好混合数据集)
SFT + DPO + GRPO
(偏好混合数据集)

阶段 1:初始预训练

  • 数据集:OLMo-mix-1124(3.9T tokens)
  • 覆盖范围:总预训练预算的 95% 以上
  • 1B 模型:约 1 个 epoch

阶段 2:中期训练

  • 数据集:Dolmino-Mix-1124
  • 一组训练混合数据:
    • 500 亿 tokens
  • 混合组成:50% 高质量网络数据 + 学术/问答/指令/数学内容

模型合并

  • 1B 模型:仅在 500 亿混合数据(成分 3)上训练了一个版本,未进行合并。成分 1 和成分 2 仅为探索性运行。

偏差、风险与局限性

与任何基础或微调语言模型一样,人工智能可能会被用户提示生成有害和敏感内容。此类内容也可能在无意中产生,尤其是在涉及偏差的情况下,因此我们建议用户在应用此技术时考虑相关风险。此外,OLMo 或任何大型语言模型(LLM)的许多陈述往往不准确,因此事实应予以核实。

引用

@misc{olmo20242olmo2furious,
      title={{2 OLMo 2 Furious}},
      author={Team OLMo and Pete Walsh and Luca Soldaini and Dirk Groeneveld and Kyle Lo and Shane Arora and Akshita Bhagia and Yuling Gu and Shengyi Huang and Matt Jordan and Nathan Lambert and Dustin Schwenk and Oyvind Tafjord and Taira Anderson and David Atkinson and Faeze Brahman and Christopher Clark and Pradeep Dasigi and Nouha Dziri and Michal Guerquin and Hamish Ivison and Pang Wei Koh and Jiacheng Liu and Saumya Malik and William Merrill and Lester James V. Miranda and Jacob Morrison and Tyler Murray and Crystal Nam and Valentina Pyatkin and Aman Rangapur and Michael Schmitz and Sam Skjonsberg and David Wadden and Christopher Wilhelm and Michael Wilson and Luke Zettlemoyer and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi},
      year={2024},
      eprint={2501.00656},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.00656},
}

模型卡片联系方式

若本模型卡片存在错误,请联系 olmo@allenai.org。