Covenant-72B 是目前规模最大的无许可协作训练语言模型,完全从零开始训练,参数量达720亿,训练数据为1.1万亿 tokens 的英文文本。

更多详情,请参见技术报告。本模型为基础模型。指令微调版本请参见Covenant-72B-Chat。
Covenant-72B 的训练由20多名全球分布式参与者通过 Bittensor 区块链上的去中心化基础设施协作完成。与以往使用白名单计算资源的协作训练项目不同,Covenant-72B 是首个在完全无许可参与模式下达到此规模的模型。训练过程采用 SparseLoCo 通信高效优化器,以降低分布式节点间的带宽需求。
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"1Covenant/Covenant-72B",
torch_dtype=torch.bfloat16,
device_map="auto",
)
tokenizer = AutoTokenizer.from_pretrained("1Covenant/Covenant-72B")
input_text = "The theory of general relativity"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(model.device)
output_ids = model.generate(input_ids, max_new_tokens=100)
print(tokenizer.decode(output_ids[0], skip_special_tokens=True))| 参数 | 值 |
|---|---|
| 参数规模 | 72B |
| 架构 | LLaMA 风格(LlamaForCausalLM) |
| 层数 | 80 |
| 注意力头数 | 64(8 个 KV 头) |
| 隐藏层大小 | 8192 |
| 中间层大小 | 28672 |
| 头维度 | 128 |
| 词汇表大小 | 262,144 |
训练详情:
除非另有说明,所有结果均为 0 样本 acc_norm(%)。
| 模型 | 规模 | 标记数 | ARC-C | ARC-E | PIQA | OBQA | HellaSwag | WinoGrande* | MMLU* |
|---|---|---|---|---|---|---|---|---|---|
| Covenant-72B | 72B | 1.1T | 56.83 | 80.93 | 81.56 | 44.00 | 80.61 | 75.85 | 67.11 |
| INTELLECT-1 | 10B | 1T | 44.80 | 71.76 | 77.37 | 43.80 | 70.26 | 63.30 | 32.69 |
| Psyche Consilience | 40B | 1.2T | 31.14 | 55.77 | 76.12 | 35.20 | 63.67 | 56.99 | 24.23 |
| LLM360 K2 ckpt_108 | 65B | 420B | 45.73 | 70.54 | 80.90 | 43.20 | 78.23 | 71.90 | 50.01 |
| LLM360 K2 | 65B | 1.4T | 53.75 | 75.97 | 82.54 | 48.00 | 82.86 | 76.40 | 65.51 |
| LLaMA-2-7B | 7B | 2T | 45.05 | 73.82 | 78.73 | 44.20 | 76.18 | 69.38 | 41.73 |
| LLaMA-2-70B | 70B | 2T | 57.42 | 79.55 | 82.59 | 49.40 | 84.34 | 80.43 | 65.63 |
*WinoGrande 使用 acc;MMLU 使用 acc。