修改

修改示例并添加NPU支持
添加依赖项

模型说明

GPT-SW3是一系列大型仅解码器预训练Transformer语言模型，由瑞典人工智能研究院（AI Sweden）与RISE以及WASP WARA媒体与语言项目合作开发。GPT-SW3的训练数据集包含3200亿个标记，涵盖瑞典语、挪威语、丹麦语、冰岛语、英语和编程语言代码。该模型使用因果语言建模（CLM）目标进行预训练，采用NeMo Megatron GPT实现。

预期用途

GPT-SW3是一种自回归大型语言模型，能够生成5种不同语言和4种编程语言的连贯文本。通过将未明确训练的文本任务转化为文本生成任务，GPT-SW3还可以被指示执行这些任务。瑞典人工智能研究院以受控预发布的形式，向 Nordic NLP 生态系统中的组织和个人共享GPT-SW3，这些组织和个人能够为模型的验证和测试做出贡献，并向社区提供反馈。这是验证模型以及收集关于模型优点和不足反馈过程中的重要一步。

局限性

与其他大型语言模型一样，训练数据的多样性（或缺乏多样性）会对模型质量产生下游影响，GPT-SW3在偏差和安全性等方面存在局限性。GPT-SW3在生成多样性和幻觉方面也可能存在质量问题。通过采用修改后的RAIL许可证发布，我们还希望加强大型语言模型的交流、透明度和研究。该模型可能：过度代表某些观点而低估其他观点，包含刻板印象，生成仇恨、辱骂、暴力、歧视性或偏见性语言。该模型可能会出错，包括将不正确的信息当作事实输出，可能生成不相关或重复的内容，以及可能不适合所有场景的内容，包括性内容。

依赖项

transformers==4.44.2
psutil==6.0.0
better_profanity==0.7.0
einops==0.6.1
protobuf==5.28.2

使用方法

以下代码会在NPU可用时使用NPU。

from openmind import pipeline, is_torch_npu_available
from openmind_hub import snapshot_download

if is_torch_npu_available():
	device = "npu:0"
else:
	device = "cpu"
generate_text = pipeline(
		model="SY_AICC/gpt-sw3-1.3b",
		torch_dtype=torch.bfloat16, 
		trust_remote_code=True,
		device=device,)
output = generate_text(
		"Why is drinking water so healthy?", 
		max_new_tokens=100)
print(res[0]["generated_text"])

合规性

GPT-SW3 的发布内容包括模型权重、配置文件、分词器文件和词汇表文件。这些文件均不包含任何个人身份信息（PII）或受版权保护的材料。

GPT-SW3 模型卡片

遵循 Mitchell 等人（2018）的做法，我们为 GPT-SW3 提供了模型卡片。

模型详情

模型开发人员或组织：GPT-SW3 由 AI Sweden 与 RISE 以及 WASP WARA for Media and Language 合作开发。
模型日期：GPT-SW3 的发布日期为 2022-12-20
模型版本：这是 GPT-SW3 的第二代版本。
模型类型：GPT-SW3 是一个大型的仅解码器 transformer 语言模型。
有关训练算法、参数、公平性约束或其他应用方法以及特性的信息：GPT-SW3 使用 NeMo Megatron GPT 实现进行训练。
更多信息的论文或其他资源：不适用。
许可证：LICENSE。
有关模型问题或意见的反馈渠道：nlu@ai.se

预期用途

主要预期用途：我们预发布 GPT-SW3，用于研究和评估大型语言模型在北欧语言上的能力。这是 LLM 知识构建过程中的重要一步，用于验证模型并收集关于其优点和不足的反馈。
主要预期用户：北欧 NLP 生态系统中的组织和个人，他们能够为模型的验证和测试做出贡献，并向社区提供反馈。
超出范围的使用场景：参见修改后的 RAIL 许可证。

数据、局限性与建议

训练数据选择：GPT-SW3 的训练数据选择基于广度和可用性的综合考虑。有关用于训练我们模型的数据的更多详细信息，请参见我们的数据表。
评估数据选择：不适用
局限性：与其他大型语言模型一样，训练数据的多样性（或缺乏多样性）会对模型质量产生下游影响，GPT-SW3 在偏见和安全性方面存在局限性。GPT-SW3 在生成多样性和幻觉方面也可能存在质量问题。总体而言，GPT-SW3 无法避免现代大型语言模型普遍存在的诸多问题。通过以修改后的 RAIL 许可证发布，我们也希望加强关于大型语言模型的交流、透明度和研究。该模型可能：过度代表某些观点而低估其他观点；包含刻板印象；生成仇恨、辱骂或暴力语言；歧视性或偏见性语言；可能不适用于所有场景的内容，包括性内容；出现错误，包括将不正确的信息当作事实输出；生成不相关或重复的输出。
未来工作建议：应让间接用户知晓其处理的内容是由 LLM 创建的。用户应了解风险和局限性，并在必要时包含适当的年龄免责声明或访问限制界面。使用该 LLM 预训练的模型应包含更新后的模型卡片。模型用户应提供让受影响者提供反馈的机制，例如用于评论的电子邮件地址。
我们希望 GPT-SW3 的发布以及我们模型训练过程的相关信息，将促进围绕特定大型语言模型以及一般自然语言处理和深度学习的开放科学发展。

GPT-SW3 数据集说明文档

我们遵循 Gebru 等人（2021）的建议，为训练 GPT-SW3 所使用的数据集提供一份说明文档。

动机

创建该数据集的目的是什么？是否有特定的任务需求？是否存在需要填补的特定空白？请提供说明。大型语言模型（LLM）的预训练，例如 GPT-3（T. B. Brown 等人，2020）、Gopher（J. W. Rae 等人，2022）、BLOOM（T. L. Scao 等人，2022）等，需要数百甚至数千 GB 的文本数据。近期研究（Chinchilla：J. Hoffmann 等人，2022）表明，训练数据的规模比之前想象的更为重要。因此，为了训练瑞典语 LLM，我们需要大规模、高质量的瑞典语文本数据集。由于在此计划之前不存在此类数据集，我们收集了北欧语言和英语的相关数据。
谁创建了该数据集（例如，哪个团队、研究小组），以及代表哪个实体（例如，公司、机构、组织）？瑞典人工智能研究院（AI Sweden）的自然语言理解战略计划建立了一个以协作为核心的新研究环境。致力于创建该数据集的核心团队是 AI Sweden 的 NLU 研究小组。该小组由来自 AI Sweden（林德霍尔门科学园股份公司）和瑞典研究与创新机构（RISE）的研究人员及开发人员组成。
谁资助了该数据集的创建？如果有相关资助，请提供资助方名称、资助名称和编号。瑞典创新署（Vinnova）通过多项不同的资助支持了这项工作，其中包括 2019-02996 和 2022-00949。
其他说明？无。

构成

构成数据集的实例代表什么（例如，文档、照片、人物、国家）？是否存在多种类型的实例（例如，电影、用户和评分；人物及其之间的互动；节点和边）？请提供说明。这些实例是按语言和文档类型分类的文本文档。该数据集是经过筛选和去重的集合，包括以下来源：
书籍
- 瑞典文学数据库（Litteraturbanken，https://litteraturbanken.se/）
- The Pile
文章
- Diva 学术门户（https://www.diva-portal.org/）
- The Pile：PubMed
- The Pile：ArXiv
对话
- Familjeliv（https://www.familjeliv.se/）
- Flashback（https://flashback.se/）
- 通过 Parlai 收集的数据集（完整列表见数据论文附录）（https://github.com/facebookresearch/ParlAI）
- Pushshift.io Reddit 数据集，由 Baumgartner 等人（2020）开发，并经 Roller 等人（2021）处理
数学
- 使用 DeepMind 代码生成的英语数学数据集（D. Saxton 等人，2019）
- 瑞典语数学数据集，使用上述方法并结合人工翻译的模板生成
其他
- 摘要数据（https://www.ida.liu.se/~arnjo82/papers/clarin-21-julius.pdf）
- OPUS，开放平行语料库（https://opus.nlpl.eu/）
- 电影剧本（https://github.com/Aveek-Saha/Movie-Script-Database）
- 自然指令（Natural Instructions，https://github.com/allenai/natural-instructions）
- 丹麦语 Gigaword（https://gigaword.dk/）
- 冰岛语 Gigaword（https://clarin.is/en/resources/gigaword/）
- The Pile：Stack Exchange
网络通用抓取
- 来自 LES 项目（社会语言探索，https://les.gu.se）的网络数据。
- 多语言 C4（MC4），由 AllenAI 基于 C4 整理（C. Raffel 等人，2019）
- 开放超大规模抓取聚合语料库（OSCAR）（P. O. Suarez，2019）
- The Pile：Open Web Text
网络来源
- 各种公开的瑞典网站抓取数据（详见数据论文附录）
- Familjeliv 文章
- 来自 JobTech/瑞典就业服务局的公开瑞典招聘广告
- 维基百科
- 官方维基百科数据转储
总共有多少个实例（如适用，请按类型分别说明）？训练数据包含 1.1TB 的 UTF-8 编码文本，包含 6.6 亿份文档，总共有 3200 亿个 tokens。
数据集是否包含所有可能的实例，还是从更大集合中抽取的样本（不一定是随机样本）？如果是样本，那么更大的集合是什么？该样本是否能代表更大的集合（例如，地理覆盖范围）？如果是，请描述如何验证/核实这种代表性。如果不能代表更大的集合，请描述原因（例如，为了覆盖更多样化的实例，因为某些实例被保留或不可用）。我们数据集中来自多语言通用抓取数据集（MC4、OSCAR）的部分，已按语言筛选，仅包含瑞典语、挪威语、丹麦语和冰岛语。从 The Pile 中，我们只包含了通常具有最高文本质量的部分，或能补充我们数据集中其他缺失来源的部分（例如书籍）。数据集的其余部分则来自上述其他来源。
每个实例包含哪些数据？“原始”数据（例如，未处理的文本或图像）还是特征？无论哪种情况，请提供说明。每个实例均由原始文本数据组成。
每个实例是否有关联的标签或目标？如果有，请提供说明。无。
单个实例中是否有任何信息缺失？如果有，请提供说明，并解释信息缺失的原因（例如，因为无法获取）。这不包括故意删除的信息，但可能包括例如编辑过的文本。无。
个体实例之间的关系是否明确（例如，用户的电影评分、社交网络链接）？如果是，请描述这些关系是如何明确的。个体实例之间没有明确的关系。
是否有推荐的数据拆分（例如，训练集、开发/验证集、测试集）？如果有，请提供这些拆分的说明，并解释其背后的基本原理。此数据集没有明确推荐的拆分方式。在预训练模型时，训练集、开发集、测试集的随机拆分比例分别设为 99.99%、0.08% 和 0.02%，并根据每个子集的权重和大小按比例采样。每个子集的权重是预先手动确定的。这些决定是综合考虑数据的价值、来源和语言后做出的，旨在形成一个具有代表性且平衡的预训练语料库。
数据集中是否存在任何错误、噪声来源或冗余？如果有，请提供说明。该数据集汇集了多个来源，其中一些来源自然存在一定的重叠。尽管我们已进行去重处理，但仍可能存在部分重叠。此外，来自通用抓取数据集的一些人工痕迹可能未被我们的数据过滤流程完全排除，从而残留一些噪声。除上述情况外，我们未发现其他错误、噪声来源或冗余。
数据集是独立完整的，还是链接到或依赖于外部资源（例如，网站、推文、其他数据集）？数据集是独立完整的。
数据集是否包含直接查看可能会冒犯、侮辱、威胁他人或引起焦虑的内容？如果是，请描述原因。数据集包含公开的通用抓取数据、Reddit、Familjeliv 和 Flashback 的部分内容。这些内容中可能包含直接查看时会冒犯、侮辱、威胁他人或引起焦虑的语句。
数据集是否与人相关？如果不相关，您可以跳过本节其余问题。此数据中的部分文档与人相关，例如新闻文章、维基百科描述等。
数据集是否识别了任何子群体（例如，按年龄、性别）？如果是，请描述这些子群体是如何被识别的，并提供它们在数据集中各自分布的描述。否，数据集未明确包含子群体识别信息。
其他说明？无。

数据收集流程

每个实例相关的数据是如何获取的？数据是可直接观察的（例如，原始文本、电影评分）、由受试者报告的（例如，调查答复），还是从其他数据中间接推断/衍生的（例如，词性标签、基于模型对年龄或语言的猜测）？如果数据是由受试者报告的，或从其他数据中间接推断/衍生的，那么数据是否经过验证/核实？如果是，请描述具体方式。不适用。本数据集是公开可用数据集和来源的集合。
采用了哪些机制或程序来收集数据（例如，硬件设备或传感器、人工手动整理、软件程序、软件API）？这些机制或程序是如何验证的？数据是从互联网上下载的。
如果该数据集是从更大集合中抽样得到的，那么采用了何种抽样策略（例如，确定性抽样、具有特定抽样概率的概率抽样）？有关数据集各部分的选择方式，请参见先前的回答。
谁参与了数据收集过程（例如，学生、众包工作者、承包商），以及他们是如何获得补偿的（例如，众包工作者的报酬是多少）？此数据由机器进行挖掘、筛选和抽样。
数据收集的时间范围是什么？该时间范围是否与实例相关数据的创建时间范围一致（例如，对旧新闻文章的近期爬取）？如果不一致，请描述实例相关数据的创建时间范围。数据集的收集时间为2021年6月至2022年6月期间。所收集来源的创建时间各不相同，例如Common Crawl数据已连续收集了12年。
数据集是否与人相关？如果否，您可以跳过本节的其余问题。是。文本是由人创作的。在公开可用数据源中可能存在的、并因此出现在所创建数据集内的任何个人信息，均与数据集的收集和使用无关。
是否对数据集及其使用对数据主体的潜在影响进行过分析（例如，数据保护影响评估）？如果是，请提供此分析的描述，包括结果，以及任何支持文档的链接或其他访问点。是。
其他说明？无。
预处理/清洗/标注
是否对数据进行过任何预处理/清洗/标注（例如，离散化或分桶、 token 化、词性标注、SIFT 特征提取、实例移除、缺失值处理）？如果是，请提供描述。如果否，您可以跳过本节的其余问题。数据集在文档级别使用标准程序进行了筛选和重新格式化，其灵感来源于The BigScience ROOTS Corpus（H. Laurençon等人，2022）和Gopher（J. W. Rae等人，2022）的研究工作。这样做的目的是使整个数据集的文本格式保持一致，并移除不符合我们文本质量要求的文档（例如，重复性内容）。此外，使用MinHash算法对数据集进行了去重处理，以解决所收集子集之间的重叠问题，该方法与GPT-3和The Pile中使用的方法类似，并在“Deduplicating Training Data Makes Language Models Better”（K. Lee等人，2021）中有更详细的描述。
是否除了预处理/清洗/标注后的数据外，还保存了“原始”数据（例如，为了支持未预见的未来用途）？如果是，请提供“原始”数据的链接或其他访问点。“原始”的组成数据集在其各自的位置公开可用。
其他说明？无。

用途

该数据集是否已用于任何任务？如果是，请提供说明。该数据集曾用于预训练GPT-SW3模型。
是否有存储库链接到使用该数据集的部分或全部论文或系统？如果是，请提供链接或其他访问点。不适用。
该数据集还可用于哪些（其他）任务？这些数据可用于预训练语言模型，而语言模型是当前和未来许多语言任务的基础。
数据集的构成、收集方式以及预处理/清理/标记方式是否可能影响未来的用途？例如，是否存在未来用户需要了解的事项，以避免可能导致对个人或群体不公平对待（如刻板印象、服务质量问题）或其他不良危害（如财务损害、法律风险）的用途？如果是，请提供说明。未来用户可以采取哪些措施来减轻这些不良危害？该数据集可能相当具有瑞典互联网话语的普遍代表性，也能反映瑞典公共部门的情况，但我们知道这些数据不一定能代表全体瑞典人口。
是否存在不应使用该数据集的任务？如果是，请提供说明。目前我们尚不清楚有此类任务。
其他说明？无。

分发

是否会将数据集分发给创建该数据集的实体（如公司、机构、组织）以外的第三方？如果是，请提供说明。否。
数据集将如何分发（如网站上的压缩包、API、GitHub）？该数据集是否有数字对象标识符（DOI）？不适用。
数据集何时分发？不适用。
数据集是否会根据版权或其他知识产权（IP）许可和/或适用的使用条款（ToU）进行分发？如果是，请描述此许可和/或使用条款，并提供相关许可条款或使用条款的链接或其他访问点，或直接复制这些内容，以及与这些限制相关的任何费用。不适用。
是否有任何出口管制或其他监管限制适用于该数据集或单个实例？如果是，请描述这些限制，并提供支持性文件的链接或其他访问点，或直接复制这些文件。不适用。
其他说明？无。

维护

谁在支持/托管/维护该数据集？瑞典人工智能研究院（AI Sweden），隶属于林德霍尔门科技园公司（Lindholmen Science Park AB）。
如何联系数据集的所有者/管理者/负责人（例如，电子邮件地址）？nlu@ai.se
是否有勘误表？如果有，请提供链接或其他访问方式。不适用（N/A）。
数据集是否会更新（例如，纠正标签错误、添加新实例、删除实例）？如果会，请说明更新频率、负责方以及如何向用户通知更新（例如，邮件列表、GitHub）？目前，没有更新数据集的计划。
如果数据集涉及个人，对于与实例相关的数据保留是否有适用限制（例如，是否告知相关个人其数据将保留固定期限，然后删除）？如果有，请描述这些限制并解释如何执行。请阅读瑞典人工智能研究院自然语言理解（NLU）计划的隐私政策，链接如下：此处。
旧版本的数据集是否会继续得到支持/托管/维护？如果是，请描述方式。如果不是，请描述如何向用户通知其过时。不适用（N/A）。
如果其他人想要扩展/扩充/基于该数据集进行构建/为数据集做贡献，是否有相应的机制？如果有，请提供说明。这些贡献是否会经过验证/核实？如果是，请描述方式。如果否，原因是什么？是否有将这些贡献传达/分发给其他用户的流程？如果有，请提供说明。目前不支持。
其他说明？无。

评估结果

指标	数值
平均值	29.99
ARC（25次示例）	30.38
HellaSwag（10次示例）	50.4
MMLU（5次示例）	26.14
TruthfulQA（0次示例）	39.97
Winogrande（5次示例）	58.88
GSM8K（5次示例）	0.08
DROP（3次示例）	4.08

修改

修改示例并添加NPU支持
添加依赖项

模型说明

预期用途

局限性

依赖项

transformers==4.44.2
psutil==6.0.0
better_profanity==0.7.0
einops==0.6.1
protobuf==5.28.2

使用方法

以下代码会在NPU可用时使用NPU。

from openmind import pipeline, is_torch_npu_available
from openmind_hub import snapshot_download

if is_torch_npu_available():
	device = "npu:0"
else:
	device = "cpu"
generate_text = pipeline(
		model="SY_AICC/gpt-sw3-1.3b",
		torch_dtype=torch.bfloat16, 
		trust_remote_code=True,
		device=device,)
output = generate_text(
		"Why is drinking water so healthy?", 
		max_new_tokens=100)
print(res[0]["generated_text"])

合规性

GPT-SW3 的发布内容包括模型权重、配置文件、分词器文件和词汇表文件。这些文件均不包含任何个人身份信息（PII）或受版权保护的材料。

GPT-SW3 模型卡片

遵循 Mitchell 等人（2018）的做法，我们为 GPT-SW3 提供了模型卡片。

模型详情

模型开发人员或组织：GPT-SW3 由 AI Sweden 与 RISE 以及 WASP WARA for Media and Language 合作开发。
模型日期：GPT-SW3 的发布日期为 2022-12-20
模型版本：这是 GPT-SW3 的第二代版本。
模型类型：GPT-SW3 是一个大型的仅解码器 transformer 语言模型。
有关训练算法、参数、公平性约束或其他应用方法以及特性的信息：GPT-SW3 使用 NeMo Megatron GPT 实现进行训练。
更多信息的论文或其他资源：不适用。
许可证：LICENSE。
有关模型问题或意见的反馈渠道：nlu@ai.se

预期用途

主要预期用途：我们预发布 GPT-SW3，用于研究和评估大型语言模型在北欧语言上的能力。这是 LLM 知识构建过程中的重要一步，用于验证模型并收集关于其优点和不足的反馈。
主要预期用户：北欧 NLP 生态系统中的组织和个人，他们能够为模型的验证和测试做出贡献，并向社区提供反馈。
超出范围的使用场景：参见修改后的 RAIL 许可证。

数据、局限性与建议

训练数据选择：GPT-SW3 的训练数据选择基于广度和可用性的综合考虑。有关用于训练我们模型的数据的更多详细信息，请参见我们的数据表。
评估数据选择：不适用
局限性：与其他大型语言模型一样，训练数据的多样性（或缺乏多样性）会对模型质量产生下游影响，GPT-SW3 在偏见和安全性方面存在局限性。GPT-SW3 在生成多样性和幻觉方面也可能存在质量问题。总体而言，GPT-SW3 无法避免现代大型语言模型普遍存在的诸多问题。通过以修改后的 RAIL 许可证发布，我们也希望加强关于大型语言模型的交流、透明度和研究。该模型可能：过度代表某些观点而低估其他观点；包含刻板印象；生成仇恨、辱骂或暴力语言；歧视性或偏见性语言；可能不适用于所有场景的内容，包括性内容；出现错误，包括将不正确的信息当作事实输出；生成不相关或重复的输出。
未来工作建议：应让间接用户知晓其处理的内容是由 LLM 创建的。用户应了解风险和局限性，并在必要时包含适当的年龄免责声明或访问限制界面。使用该 LLM 预训练的模型应包含更新后的模型卡片。模型用户应提供让受影响者提供反馈的机制，例如用于评论的电子邮件地址。
我们希望 GPT-SW3 的发布以及我们模型训练过程的相关信息，将促进围绕特定大型语言模型以及一般自然语言处理和深度学习的开放科学发展。

GPT-SW3 数据集说明文档

我们遵循 Gebru 等人（2021）的建议，为训练 GPT-SW3 所使用的数据集提供一份说明文档。

动机

创建该数据集的目的是什么？是否有特定的任务需求？是否存在需要填补的特定空白？请提供说明。大型语言模型（LLM）的预训练，例如 GPT-3（T. B. Brown 等人，2020）、Gopher（J. W. Rae 等人，2022）、BLOOM（T. L. Scao 等人，2022）等，需要数百甚至数千 GB 的文本数据。近期研究（Chinchilla：J. Hoffmann 等人，2022）表明，训练数据的规模比之前想象的更为重要。因此，为了训练瑞典语 LLM，我们需要大规模、高质量的瑞典语文本数据集。由于在此计划之前不存在此类数据集，我们收集了北欧语言和英语的相关数据。
谁创建了该数据集（例如，哪个团队、研究小组），以及代表哪个实体（例如，公司、机构、组织）？瑞典人工智能研究院（AI Sweden）的自然语言理解战略计划建立了一个以协作为核心的新研究环境。致力于创建该数据集的核心团队是 AI Sweden 的 NLU 研究小组。该小组由来自 AI Sweden（林德霍尔门科学园股份公司）和瑞典研究与创新机构（RISE）的研究人员及开发人员组成。
谁资助了该数据集的创建？如果有相关资助，请提供资助方名称、资助名称和编号。瑞典创新署（Vinnova）通过多项不同的资助支持了这项工作，其中包括 2019-02996 和 2022-00949。
其他说明？无。

构成

构成数据集的实例代表什么（例如，文档、照片、人物、国家）？是否存在多种类型的实例（例如，电影、用户和评分；人物及其之间的互动；节点和边）？请提供说明。这些实例是按语言和文档类型分类的文本文档。该数据集是经过筛选和去重的集合，包括以下来源：
书籍
- 瑞典文学数据库（Litteraturbanken，https://litteraturbanken.se/）
- The Pile
文章
- Diva 学术门户（https://www.diva-portal.org/）
- The Pile：PubMed
- The Pile：ArXiv
对话
- Familjeliv（https://www.familjeliv.se/）
- Flashback（https://flashback.se/）
- 通过 Parlai 收集的数据集（完整列表见数据论文附录）（https://github.com/facebookresearch/ParlAI）
- Pushshift.io Reddit 数据集，由 Baumgartner 等人（2020）开发，并经 Roller 等人（2021）处理
数学
- 使用 DeepMind 代码生成的英语数学数据集（D. Saxton 等人，2019）
- 瑞典语数学数据集，使用上述方法并结合人工翻译的模板生成
其他
- 摘要数据（https://www.ida.liu.se/~arnjo82/papers/clarin-21-julius.pdf）
- OPUS，开放平行语料库（https://opus.nlpl.eu/）
- 电影剧本（https://github.com/Aveek-Saha/Movie-Script-Database）
- 自然指令（Natural Instructions，https://github.com/allenai/natural-instructions）
- 丹麦语 Gigaword（https://gigaword.dk/）
- 冰岛语 Gigaword（https://clarin.is/en/resources/gigaword/）
- The Pile：Stack Exchange
网络通用抓取
- 来自 LES 项目（社会语言探索，https://les.gu.se）的网络数据。
- 多语言 C4（MC4），由 AllenAI 基于 C4 整理（C. Raffel 等人，2019）
- 开放超大规模抓取聚合语料库（OSCAR）（P. O. Suarez，2019）
- The Pile：Open Web Text
网络来源
- 各种公开的瑞典网站抓取数据（详见数据论文附录）
- Familjeliv 文章
- 来自 JobTech/瑞典就业服务局的公开瑞典招聘广告
- 维基百科
- 官方维基百科数据转储
总共有多少个实例（如适用，请按类型分别说明）？训练数据包含 1.1TB 的 UTF-8 编码文本，包含 6.6 亿份文档，总共有 3200 亿个 tokens。
数据集是否包含所有可能的实例，还是从更大集合中抽取的样本（不一定是随机样本）？如果是样本，那么更大的集合是什么？该样本是否能代表更大的集合（例如，地理覆盖范围）？如果是，请描述如何验证/核实这种代表性。如果不能代表更大的集合，请描述原因（例如，为了覆盖更多样化的实例，因为某些实例被保留或不可用）。我们数据集中来自多语言通用抓取数据集（MC4、OSCAR）的部分，已按语言筛选，仅包含瑞典语、挪威语、丹麦语和冰岛语。从 The Pile 中，我们只包含了通常具有最高文本质量的部分，或能补充我们数据集中其他缺失来源的部分（例如书籍）。数据集的其余部分则来自上述其他来源。
每个实例包含哪些数据？“原始”数据（例如，未处理的文本或图像）还是特征？无论哪种情况，请提供说明。每个实例均由原始文本数据组成。
每个实例是否有关联的标签或目标？如果有，请提供说明。无。
单个实例中是否有任何信息缺失？如果有，请提供说明，并解释信息缺失的原因（例如，因为无法获取）。这不包括故意删除的信息，但可能包括例如编辑过的文本。无。
个体实例之间的关系是否明确（例如，用户的电影评分、社交网络链接）？如果是，请描述这些关系是如何明确的。个体实例之间没有明确的关系。
是否有推荐的数据拆分（例如，训练集、开发/验证集、测试集）？如果有，请提供这些拆分的说明，并解释其背后的基本原理。此数据集没有明确推荐的拆分方式。在预训练模型时，训练集、开发集、测试集的随机拆分比例分别设为 99.99%、0.08% 和 0.02%，并根据每个子集的权重和大小按比例采样。每个子集的权重是预先手动确定的。这些决定是综合考虑数据的价值、来源和语言后做出的，旨在形成一个具有代表性且平衡的预训练语料库。
数据集中是否存在任何错误、噪声来源或冗余？如果有，请提供说明。该数据集汇集了多个来源，其中一些来源自然存在一定的重叠。尽管我们已进行去重处理，但仍可能存在部分重叠。此外，来自通用抓取数据集的一些人工痕迹可能未被我们的数据过滤流程完全排除，从而残留一些噪声。除上述情况外，我们未发现其他错误、噪声来源或冗余。
数据集是独立完整的，还是链接到或依赖于外部资源（例如，网站、推文、其他数据集）？数据集是独立完整的。
数据集是否包含直接查看可能会冒犯、侮辱、威胁他人或引起焦虑的内容？如果是，请描述原因。数据集包含公开的通用抓取数据、Reddit、Familjeliv 和 Flashback 的部分内容。这些内容中可能包含直接查看时会冒犯、侮辱、威胁他人或引起焦虑的语句。
数据集是否与人相关？如果不相关，您可以跳过本节其余问题。此数据中的部分文档与人相关，例如新闻文章、维基百科描述等。
数据集是否识别了任何子群体（例如，按年龄、性别）？如果是，请描述这些子群体是如何被识别的，并提供它们在数据集中各自分布的描述。否，数据集未明确包含子群体识别信息。
其他说明？无。

数据收集流程

每个实例相关的数据是如何获取的？数据是可直接观察的（例如，原始文本、电影评分）、由受试者报告的（例如，调查答复），还是从其他数据中间接推断/衍生的（例如，词性标签、基于模型对年龄或语言的猜测）？如果数据是由受试者报告的，或从其他数据中间接推断/衍生的，那么数据是否经过验证/核实？如果是，请描述具体方式。不适用。本数据集是公开可用数据集和来源的集合。
采用了哪些机制或程序来收集数据（例如，硬件设备或传感器、人工手动整理、软件程序、软件API）？这些机制或程序是如何验证的？数据是从互联网上下载的。
如果该数据集是从更大集合中抽样得到的，那么采用了何种抽样策略（例如，确定性抽样、具有特定抽样概率的概率抽样）？有关数据集各部分的选择方式，请参见先前的回答。
谁参与了数据收集过程（例如，学生、众包工作者、承包商），以及他们是如何获得补偿的（例如，众包工作者的报酬是多少）？此数据由机器进行挖掘、筛选和抽样。
数据收集的时间范围是什么？该时间范围是否与实例相关数据的创建时间范围一致（例如，对旧新闻文章的近期爬取）？如果不一致，请描述实例相关数据的创建时间范围。数据集的收集时间为2021年6月至2022年6月期间。所收集来源的创建时间各不相同，例如Common Crawl数据已连续收集了12年。
数据集是否与人相关？如果否，您可以跳过本节的其余问题。是。文本是由人创作的。在公开可用数据源中可能存在的、并因此出现在所创建数据集内的任何个人信息，均与数据集的收集和使用无关。
是否对数据集及其使用对数据主体的潜在影响进行过分析（例如，数据保护影响评估）？如果是，请提供此分析的描述，包括结果，以及任何支持文档的链接或其他访问点。是。
其他说明？无。
预处理/清洗/标注
是否对数据进行过任何预处理/清洗/标注（例如，离散化或分桶、 token 化、词性标注、SIFT 特征提取、实例移除、缺失值处理）？如果是，请提供描述。如果否，您可以跳过本节的其余问题。数据集在文档级别使用标准程序进行了筛选和重新格式化，其灵感来源于The BigScience ROOTS Corpus（H. Laurençon等人，2022）和Gopher（J. W. Rae等人，2022）的研究工作。这样做的目的是使整个数据集的文本格式保持一致，并移除不符合我们文本质量要求的文档（例如，重复性内容）。此外，使用MinHash算法对数据集进行了去重处理，以解决所收集子集之间的重叠问题，该方法与GPT-3和The Pile中使用的方法类似，并在“Deduplicating Training Data Makes Language Models Better”（K. Lee等人，2021）中有更详细的描述。
是否除了预处理/清洗/标注后的数据外，还保存了“原始”数据（例如，为了支持未预见的未来用途）？如果是，请提供“原始”数据的链接或其他访问点。“原始”的组成数据集在其各自的位置公开可用。
其他说明？无。

用途

该数据集是否已用于任何任务？如果是，请提供说明。该数据集曾用于预训练GPT-SW3模型。
是否有存储库链接到使用该数据集的部分或全部论文或系统？如果是，请提供链接或其他访问点。不适用。
该数据集还可用于哪些（其他）任务？这些数据可用于预训练语言模型，而语言模型是当前和未来许多语言任务的基础。
数据集的构成、收集方式以及预处理/清理/标记方式是否可能影响未来的用途？例如，是否存在未来用户需要了解的事项，以避免可能导致对个人或群体不公平对待（如刻板印象、服务质量问题）或其他不良危害（如财务损害、法律风险）的用途？如果是，请提供说明。未来用户可以采取哪些措施来减轻这些不良危害？该数据集可能相当具有瑞典互联网话语的普遍代表性，也能反映瑞典公共部门的情况，但我们知道这些数据不一定能代表全体瑞典人口。
是否存在不应使用该数据集的任务？如果是，请提供说明。目前我们尚不清楚有此类任务。
其他说明？无。

分发

是否会将数据集分发给创建该数据集的实体（如公司、机构、组织）以外的第三方？如果是，请提供说明。否。
数据集将如何分发（如网站上的压缩包、API、GitHub）？该数据集是否有数字对象标识符（DOI）？不适用。
数据集何时分发？不适用。
数据集是否会根据版权或其他知识产权（IP）许可和/或适用的使用条款（ToU）进行分发？如果是，请描述此许可和/或使用条款，并提供相关许可条款或使用条款的链接或其他访问点，或直接复制这些内容，以及与这些限制相关的任何费用。不适用。
是否有任何出口管制或其他监管限制适用于该数据集或单个实例？如果是，请描述这些限制，并提供支持性文件的链接或其他访问点，或直接复制这些文件。不适用。
其他说明？无。

维护

谁在支持/托管/维护该数据集？瑞典人工智能研究院（AI Sweden），隶属于林德霍尔门科技园公司（Lindholmen Science Park AB）。
如何联系数据集的所有者/管理者/负责人（例如，电子邮件地址）？nlu@ai.se
是否有勘误表？如果有，请提供链接或其他访问方式。不适用（N/A）。
数据集是否会更新（例如，纠正标签错误、添加新实例、删除实例）？如果会，请说明更新频率、负责方以及如何向用户通知更新（例如，邮件列表、GitHub）？目前，没有更新数据集的计划。
如果数据集涉及个人，对于与实例相关的数据保留是否有适用限制（例如，是否告知相关个人其数据将保留固定期限，然后删除）？如果有，请描述这些限制并解释如何执行。请阅读瑞典人工智能研究院自然语言理解（NLU）计划的隐私政策，链接如下：此处。
旧版本的数据集是否会继续得到支持/托管/维护？如果是，请描述方式。如果不是，请描述如何向用户通知其过时。不适用（N/A）。
如果其他人想要扩展/扩充/基于该数据集进行构建/为数据集做贡献，是否有相应的机制？如果有，请提供说明。这些贡献是否会经过验证/核实？如果是，请描述方式。如果否，原因是什么？是否有将这些贡献传达/分发给其他用户的流程？如果有，请提供说明。目前不支持。
其他说明？无。

评估结果

指标	数值
平均值	29.99
ARC（25次示例）	30.38
HellaSwag（10次示例）	50.4
MMLU（5次示例）	26.14
TruthfulQA（0次示例）	39.97
Winogrande（5次示例）	58.88
GSM8K（5次示例）	0.08
DROP（3次示例）	4.08