Covenant-72B

模型概述

Covenant-72B 是目前规模最大的无许可协作训练语言模型，完全从零开始训练，参数量达720亿，训练数据为1.1万亿 tokens 的英文文本。

Covenant-72B

更多详情，请参见技术报告。本模型为基础模型。指令微调版本请参见Covenant-72B-Chat。

Covenant-72B 的训练由20多名全球分布式参与者通过 Bittensor 区块链上的去中心化基础设施协作完成。与以往使用白名单计算资源的协作训练项目不同，Covenant-72B 是首个在完全无许可参与模式下达到此规模的模型。训练过程采用 SparseLoCo 通信高效优化器，以降低分布式节点间的带宽需求。

使用方法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "1Covenant/Covenant-72B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("1Covenant/Covenant-72B")

input_text = "The theory of general relativity"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output_ids[0], skip_special_tokens=True))

模型详情

计算参与者：Bittensor 上的 20 多位独立贡献者
每位参与者的最低计算资源：8×B200 或同等配置
模型许可证：Apache 2.0

技术规格

参数	值
参数规模	72B
架构	LLaMA 风格（LlamaForCausalLM）
层数	80
注意力头数	64（8 个 KV 头）
隐藏层大小	8192
中间层大小	28672
头维度	128
词汇表大小	262,144

训练详情：

数据集：DCLM-baseline
标记数：1.1 万亿
优化器：SparseLoCo（通信高效优化器）

基准测试性能

除非另有说明，所有结果均为 0 样本 acc_norm（%）。

模型	规模	标记数	ARC-C	ARC-E	PIQA	OBQA	HellaSwag	WinoGrande*	MMLU*
Covenant-72B	72B	1.1T	56.83	80.93	81.56	44.00	80.61	75.85	67.11
INTELLECT-1	10B	1T	44.80	71.76	77.37	43.80	70.26	63.30	32.69
Psyche Consilience	40B	1.2T	31.14	55.77	76.12	35.20	63.67	56.99	24.23
LLM360 K2 ckpt_108	65B	420B	45.73	70.54	80.90	43.20	78.23	71.90	50.01
LLM360 K2	65B	1.4T	53.75	75.97	82.54	48.00	82.86	76.40	65.51
LLaMA-2-7B	7B	2T	45.05	73.82	78.73	44.20	76.18	69.38	41.73
LLaMA-2-70B	70B	2T	57.42	79.55	82.59	49.40	84.34	80.43	65.63

*WinoGrande 使用 acc；MMLU 使用 acc。

模型概述

Covenant-72B 是目前规模最大的无许可协作训练语言模型，完全从零开始训练，参数量达720亿，训练数据为1.1万亿 tokens 的英文文本。

更多详情，请参见技术报告。本模型为基础模型。指令微调版本请参见Covenant-72B-Chat。

使用方法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "1Covenant/Covenant-72B",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("1Covenant/Covenant-72B")

input_text = "The theory of general relativity"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output_ids[0], skip_special_tokens=True))

参数

值

参数规模

72B

架构

LLaMA 风格（LlamaForCausalLM）

层数

注意力头数

64（8 个 KV 头）

隐藏层大小

8192

中间层大小

28672

头维度

128

词汇表大小

262,144

基准测试性能

除非另有说明，所有结果均为 0 样本 acc_norm（%）。

模型	规模	标记数	ARC-C	ARC-E	PIQA	OBQA	HellaSwag	WinoGrande*	MMLU*
Covenant-72B	72B	1.1T	56.83	80.93	81.56	44.00	80.61	75.85	67.11
INTELLECT-1	10B	1T	44.80	71.76	77.37	43.80	70.26	63.30	32.69
Psyche Consilience	40B	1.2T	31.14	55.77	76.12	35.20	63.67	56.99	24.23
LLM360 K2 ckpt_108	65B	420B	45.73	70.54	80.90	43.20	78.23	71.90	50.01
LLM360 K2	65B	1.4T	53.75	75.97	82.54	48.00	82.86	76.40	65.51
LLaMA-2-7B	7B	2T	45.05	73.82	78.73	44.20	76.18	69.38	41.73
LLaMA-2-70B	70B	2T	57.42	79.55	82.59	49.40	84.34	80.43	65.63

*WinoGrande 使用 acc；MMLU 使用 acc。