HuggingFace镜像/Covenant-72B
模型介绍文件和版本分析
下载使用量0

Covenant-72B

模型概述

Covenant-72B 是目前规模最大的无许可协作训练语言模型,完全从零开始训练,参数量达720亿,训练数据为1.1万亿 tokens 的英文文本。

Covenant-72B

更多详情,请参见技术报告。本模型为基础模型。指令微调版本请参见Covenant-72B-Chat。

Covenant-72B 的训练由20多名全球分布式参与者通过 Bittensor 区块链上的去中心化基础设施协作完成。与以往使用白名单计算资源的协作训练项目不同,Covenant-72B 是首个在完全无许可参与模式下达到此规模的模型。训练过程采用 SparseLoCo 通信高效优化器,以降低分布式节点间的带宽需求。

使用方法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "1Covenant/Covenant-72B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("1Covenant/Covenant-72B")

input_text = "The theory of general relativity"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output_ids[0], skip_special_tokens=True))

模型详情

  • 计算参与者:Bittensor 上的 20 多位独立贡献者
  • 每位参与者的最低计算资源:8×B200 或同等配置
  • 模型许可证:Apache 2.0

技术规格

参数值
参数规模72B
架构LLaMA 风格(LlamaForCausalLM)
层数80
注意力头数64(8 个 KV 头)
隐藏层大小8192
中间层大小28672
头维度128
词汇表大小262,144

训练详情:

  • 数据集:DCLM-baseline
  • 标记数:1.1 万亿
  • 优化器:SparseLoCo(通信高效优化器)

基准测试性能

除非另有说明,所有结果均为 0 样本 acc_norm(%)。

模型规模标记数ARC-CARC-EPIQAOBQAHellaSwagWinoGrande*MMLU*
Covenant-72B72B1.1T56.8380.9381.5644.0080.6175.8567.11
INTELLECT-110B1T44.8071.7677.3743.8070.2663.3032.69
Psyche Consilience40B1.2T31.1455.7776.1235.2063.6756.9924.23
LLM360 K2 ckpt_10865B420B45.7370.5480.9043.2078.2371.9050.01
LLM360 K265B1.4T53.7575.9782.5448.0082.8676.4065.51
LLaMA-2-7B7B2T45.0573.8278.7344.2076.1869.3841.73
LLaMA-2-70B70B2T57.4279.5582.5949.4084.3480.4365.63

*WinoGrande 使用 acc;MMLU 使用 acc。