BLOOM 语言模型

BigScience 大型开放科学开放获取多语言语言模型

模型卡片

版本 1.0 / 2022年5月26日

Bloom-1b7 模型卡片

模型详情

模型描述

本节为所有希望了解该模型的人士提供相关信息。

所有协作者均为志愿者，或已与雇主签订相关协议。(参与者的进一步细分信息即将公布。)

模型类型： 基于 Transformer 的语言模型
版本： 1.0.0
语言： 多种语言；详见训练数据
预计发布日期： 2022年7月11日（星期一）
资助方：
- 法国政府。
- 贡献者所属组织。(组织的进一步细分信息即将公布。)

用途

本节解答有关模型预期用途的问题，讨论可预见的模型用户（包括受模型影响的用户），并说明被视为超出范围或滥用模型的情况。本节为所有考虑使用该模型或受该模型影响的人士提供信息。

预期用途

创建此模型旨在支持公众对大型语言模型（LLMs）的研究。大型语言模型旨在用于文本生成，或作为可进一步针对特定任务进行微调的预训练基础模型。以下用例并非详尽无遗。

直接用途

文本生成
探究语言模型生成文本的特性
- 示例：完形填空测试、反事实推理、通过重新表述进行生成

下游用途

利用语言模型的任务包括：信息抽取、问答、文本摘要

滥用与超出范围的使用

本节说明用户不应将模型用于哪些方面。

超出范围的使用

在高风险场景中使用本模型属于超出其使用范围的情况。该模型并非为关键决策或对个人生计或福祉有任何实质性影响的用途而设计。模型输出的内容可能看似符合事实，但实际上并不准确。

超出范围的使用包括：

在生物医学领域、政治法律领域或金融领域的使用
用于对个人进行评估或评分，例如用于就业、教育或信贷评估
将模型应用于关键的自动决策、生成事实性内容、创建可靠摘要或生成必须准确的预测

滥用

故意使用模型造成伤害、侵犯人权或进行其他恶意活动，均属于对本模型的滥用。这包括：

生成垃圾信息
传播虚假信息和实施影响操作
贬低和诽谤
骚扰和虐待
欺骗
未经同意的冒充和模仿
未经同意的监视

目标用户

直接用户

普通大众
研究人员
学生
教育工作者
工程师/开发人员
非商业实体
社区倡导者，包括人权和公民权利组织

间接用户

直接用户所创建衍生品的使用者，例如使用具有预期用途的软件的用户

其他受影响者（利益相关方）

被LLM提及的个人和群体
接触到LLM输出内容或基于LLM做出的决策的个人和群体
其原创作品被包含在LLM中的个人和群体

偏见、风险与局限性

本节指出可预见的危害和可能的误解。

模型可能会：

过度代表某些观点，而对其他观点代表性不足
包含刻板印象
包含个人信息
生成以下内容：
- 仇恨、辱骂或暴力语言
- 歧视性或偏见性语言
- 可能不适用于所有场景的内容，包括性内容
出现错误，包括将不正确的信息当作事实输出
生成不相关或重复的输出

建议

本节提供有关警告和潜在缓解措施的信息。

应让间接用户知晓其处理的内容是由LLM生成的。
用户应了解风险与局限性，并在必要时添加适当的年龄免责声明或设置访问限制界面。
使用该LLM预训练的模型应包含更新后的模型卡片（Model Card）。
模型用户应提供让受影响者反馈的渠道，例如用于接收意见的电子邮箱。

训练数据

本节提供训练数据的概览，适合希望了解模型学习基础内容的人士参考。

训练数据包括：

45种自然语言
12种编程语言
1.5TB预处理文本，已转换为3500亿个独特标记（更多信息见标记器部分）。

语言

饼图显示了训练数据中的语言分布情况。

下表进一步展示了尼日尔-刚果语系和印度语系在训练数据中的分布。

尼日尔-刚果语系	占比（%）	印度语系	占比（%）
奇图姆布卡语	0.00002	阿萨姆语	0.01
基库尤语	0.00004	奥里亚语	0.04
班巴拉语	0.00004	古吉拉特语	0.04
阿坎语	0.00007	马拉地语	0.05
齐聪加语	0.00007	旁遮普语	0.05
塞索托语	0.00007	卡纳达语	0.06
奇切瓦语	0.0001	尼泊尔语	0.07
塞茨瓦纳语	0.0002	泰卢固语	0.09
北索托语	0.0002	马拉雅拉姆语	0.10
丰语	0.0002	乌尔都语	0.10
基隆迪语	0.0003	泰米尔语	0.20
沃洛夫语	0.0004	孟加拉语	0.50
卢干达语	0.0004	印地语	0.70
奇绍纳语	0.001
伊西祖鲁语	0.001
伊博语	0.001
科萨语	0.001
基尼亚卢旺达语	0.003
约鲁巴语	0.006
斯瓦希里语	0.02

下表显示了编程语言的分布情况。

扩展名	语言	文件数量
java	Java	5,407,724
php	PHP	4,942,186
cpp	C++	2,503,930
py	Python	2,435,072
js	JavaScript	1,905,518
cs	C#	1,577,347
rb	Ruby	678,413
cc	C++	443,054
hpp	C++	391,048
lua	Lua	352,317
go	GO	227,763
ts	TypeScript	195,254
C	C	134,537
scala	Scala	92,052
hh	C++	67,161
H	C++	55,899
tsx	TypeScript	33,107
rs	Rust	29,693
phpt	PHP	9,702
c++	C++	1,342
h++	C++	791
php3	PHP	540
phps	PHP	270
php5	PHP	166
php4	PHP	29

评估

本节介绍评估协议并提供结果。

指标

本节阐述计算性能的不同方式及其原因。

包括：

指标	选择原因
Perplexity	用于量化训练期间模型改进的标准指标
Cross Entropy Loss	语言模型的标准目标函数。

以及针对特定任务的多种不同指标。（更多评估指标将在评估协议完成后提供。）

影响因素

本节列出了 BLOOM 模型的一些不同方面。重点关注那些可能导致模型行为出现高方差的方面。

语言，例如英语或约鲁巴语
领域，例如新闻通讯或故事
人口统计特征，例如性别或国籍

结果

结果基于影响因素和指标。

训练时评估：

截至 2022 年 5 月 25 日，太平洋标准时间 15:00：

训练损失：2.0
验证损失：2.2
Perplexity：8.9

（更多评估分数将在模型训练结束时提供。）

环境影响

训练用超级计算机 Jean Zay（网站）主要使用核能。其产生的热量被重新用于校园住房供暖。

估计碳排放： （训练完成后提供。）

估计电力使用量： （训练完成后提供。）

技术规格

本节为从事模型开发的人员提供信息。

仅解码器架构
对词嵌入层应用层归一化（StableEmbedding；
ALiBI 位置编码，使用 GeLU 激活函数
1,722,408,960 个参数：
- 513,802,240 个嵌入参数
- 24 层，16 个注意力头
- 隐藏层维度为 2048
- 使用的序列长度为 2048 个 tokens（参见 [BLOOM tokenizer]、tokenizer description）

目标函数： 具有均值归约的 Cross Entropy。

计算基础设施： Jean Zay 公共超级计算机，由法国政府提供。

训练

检查点大小：
- Fp16 权重：2.6GB（参数数量 * 2）
- 包含优化器状态的完整检查点：--
训练吞吐量：--
训练轮次：1
日期：
- 开始：2022年3月11日上午11:42（太平洋标准时间）
- 结束：2022年5月20日
服务器训练地点：法国法兰西岛大区

分词

BLOOM 分词器是一个经过训练的子词分词器，其训练方式如下：

采用字节级别的字节对编码（BPE）算法
采用简单的预分词规则，不进行归一化处理
词汇表大小为 250,680

它是在语料库初步版本的一个子集上进行训练的，并对每种语言使用了 alpha 加权。

引用

引用格式： BigScience, BigScience Language Open-science Open-access Multilingual (BLOOM) Language Model. International, May 2021-May 2022

术语表与计算方法

本部分定义常用术语及指标计算方式。

损失（Loss）： 用于计算模型所学内容与数据所示内容（“真实值”）之间的差异。损失值越低越好。训练过程旨在最小化损失。
困惑度（Perplexity）： 基于模型对新数据概率的估计。困惑度越低越好。如果模型能 100% 准确预测接下来会出现的 token，那么困惑度为 1。其数学计算基于熵。
高风险场景（High-stakes settings）： 例如欧盟拟议的《人工智能法案》（Artificial Intelligence (AI) Act）中认定的“高风险 AI 系统”和“不可接受风险 AI 系统”。
关键决策（Critical decisions）： 例如美国拟议的《算法问责法案》（the United States' proposed Algorithmic Accountability Act）中定义的决策。
人权（Human rights）： 包括《世界人权宣言》（Universal Declaration of Human Rights）中定义的各项权利。
个人数据和个人信息（Personal Data and Personal Information）： 个人数据和个人信息在多项数据保护法规中均有定义，例如欧盟《通用数据保护条例》（European Union's General Data Protection Regulation）中的“个人数据”（personal data）；南非共和国《个人信息保护法》（Protection of Personal Information Act）、中华人民共和国《个人信息保护法》（Personal information protection law）中的“个人信息”。
敏感特征（Sensitive characteristics）： 包括人权中受特别保护的类别（参见《世界人权宣言》第 2 条 UHDR, Article 2）以及个人信息法规中受特别保护的类别（参见《通用数据保护条例》第 9 条；《个人信息保护法》第一章 Protection of Personal Information Act, Chapter 1）
欺骗（Deception）： 故意误导他人相信虚假事物的行为，例如在社交媒体上创建冒充真人的僵尸账号或聊天机器人，或生成文本文件却不告知消费者该文本是机器生成的。

模型卡片作者

大致按时间顺序和投入时间多少排序。

Margaret Mitchell、Giada Pistilli、Yacine Jernite、Ezinwanne Ozoani、Marissa Gerchick、Nazneen Rajani、Sasha Luccioni、Irene Solaiman、Maraim Masoud、Somaieh Nikpoor、Carlos Muñoz Ferrandis、Stas Bekman、Christopher Akiki、Danish Contractor、David Lansky、Angelina McMillan-Major、Tristan Thrush、Suzana Ilić、Gérard Dupont、Shayne Longpre、Manan Dey、Stella Biderman、Douwe Kiela、Emi Baylor、Teven Le Scao、Aaron Gokaslan、Julien Launay、Niklas Muennighoff

模型卡片联系方式

问题咨询： bigscience-contact@googlegroups.com