Aya model summary image

Aya 101 模型卡片

模型概述

Aya 模型是一款大规模多语言生成式语言模型，可遵循 101 种语言的指令。尽管覆盖的语言数量翻倍，但在各种自动和人工评估中，Aya 的表现仍优于 mT0 和 BLOOMZ。 Aya 模型的训练数据包括 xP3x、Aya Dataset、Aya Collection、DataProvenance collection 的一个子集以及 ShareGPT-Command。我们以 Apache-2.0 许可证发布检查点，以推进我们的使命——让多语言技术赋能多语言世界。

开发机构： Cohere For AI
模型类型： Transformer 风格的自回归大规模多语言语言模型。
论文： Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
联系方式： Cohere For AI：cohere.for.ai
语言： 请参阅本模型卡片“语言”部分中的语言列表。
许可证： Apache-2.0
模型： Aya-101
模型规模： 130 亿参数
数据集： xP3x、Aya Dataset、Aya Collection、DataProvenance collection、ShareGPT-Command。

使用

# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "CohereForAI/aya-101"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model

# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."

模型详情

微调

架构：与mt5-xxl相同
微调期间的样本数量：2500万
批处理大小：256
硬件：TPUv4-128
软件：T5X、Jax

数据来源

Aya模型基于以下数据集进行训练：

所有数据集均被筛选为mT5支持的101种语言。有关筛选和剪枝的详细信息，请参见论文。

评估

有关99种语言的多语言评估（包括判别式和生成式任务、人工评估以及涵盖预留任务和分布内性能的模拟胜率），请参考我们论文的第5节。

偏差、风险与局限性

有关我们在安全缓解方面的努力以及跨多种语言对毒性和偏差进行基准测试的详细概述，请参考我们论文的第6节和第7节：Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model。

我们希望Aya模型的发布能够通过提供一个开源的大规模多语言模型供社区研究，从而使基于社区的红队测试工作成为可能。

引用

BibTeX：

@article{üstün2024aya,
  title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
  author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
  journal={arXiv preprint arXiv:2402.07827},
  year={2024}
}

涵盖语言

点击查看涵盖语言

以下是用于微调 Aya 模型的语言列表。我们根据 Joshi et. al, 2020 的语言分类，将语言分为高资源、中资源和低资源三类。有关更多详细信息，请参阅我们的论文

ISO 代码	语言名称	文字	语系	亚语系	资源丰富度
afr	南非荷兰语	拉丁文字	印欧语系	日耳曼语族	中资源
amh	阿姆哈拉语	吉兹文字	亚非语系	闪米特语族	低资源
ara	阿拉伯语	阿拉伯文字	亚非语系	闪米特语族	高资源
aze	阿塞拜疆语	阿拉伯/拉丁文字	突厥语系	共同突厥语支	低资源
bel	白俄罗斯语	西里尔文字	印欧语系	波罗的-斯拉夫语族	中资源
ben	孟加拉语	孟加拉文字	印欧语系	印度-雅利安语支	中资源
bul	保加利亚语	西里尔文字	印欧语系	波罗的-斯拉夫语族	中资源
cat	加泰罗尼亚语	拉丁文字	印欧语系	意大利语族	高资源
ceb	宿务语	拉丁文字	南岛语系	马来-波利尼西亚语族	中资源
ces	捷克语	拉丁文字	印欧语系	波罗的-斯拉夫语族	高资源
cym	威尔士语	拉丁文字	印欧语系	凯尔特语族	低资源
dan	丹麦语	拉丁文字	印欧语系	日耳曼语族	中资源
deu	德语	拉丁文字	印欧语系	日耳曼语族	高资源
ell	希腊语	希腊文字	印欧语系	希腊-弗里吉亚语族	中资源
eng	英语	拉丁文字	印欧语系	日耳曼语族	高资源
epo	世界语	拉丁文字	人工语言	世界语支	低资源
est	爱沙尼亚语	拉丁文字	乌拉尔语系	芬兰语族	中资源
eus	巴斯克语	拉丁文字	巴斯克语系	-	高资源
fin	芬兰语	拉丁文字	乌拉尔语系	芬兰语族	高资源
fil	他加禄语	拉丁文字	南岛语系	马来-波利尼西亚语族	中资源
fra	法语	拉丁文字	印欧语系	意大利语族	高资源
fry	西弗里西亚语	拉丁文字	印欧语系	日耳曼语族	低资源
gla	苏格兰盖尔语	拉丁文字	印欧语系	凯尔特语族	低资源
gle	爱尔兰语	拉丁文字	印欧语系	凯尔特语族	低资源
glg	加利西亚语	拉丁文字	印欧语系	意大利语族	中资源
guj	古吉拉特语	古吉拉特文字	印欧语系	印度-雅利安语支	低资源
hat	海地克里奥尔语	拉丁文字	印欧语系	意大利语族	低资源
hau	豪萨语	拉丁文字	亚非语系	乍得语族	低资源
heb	希伯来语	希伯来文字	亚非语系	闪米特语族	中资源
hin	印地语	天城文字	印欧语系	印度-雅利安语支	高资源
hun	匈牙利语	拉丁文字	乌拉尔语系	-	高资源
hye	亚美尼亚语	亚美尼亚文字	印欧语系	亚美尼亚语族	低资源
ibo	伊博语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
ind	印度尼西亚语	拉丁文字	南岛语系	马来-波利尼西亚语族	中资源
isl	冰岛语	拉丁文字	印欧语系	日耳曼语族	低资源
ita	意大利语	拉丁文字	印欧语系	意大利语族	高资源
jav	爪哇语	拉丁文字	南岛语系	马来-波利尼西亚语族	低资源
jpn	日语	日本文字	日本语系	日本语支	高资源
kan	卡纳达语	卡纳达文字	达罗毗荼语系	南达罗毗荼语支	低资源
kat	格鲁吉亚语	格鲁吉亚文字	卡特维尔语系	格鲁吉亚-赞语支	中资源
kaz	哈萨克语	西里尔文字	突厥语系	共同突厥语支	中资源
khm	高棉语	高棉文字	南亚语系	高棉语族	低资源
kir	吉尔吉斯语	西里尔文字	突厥语系	共同突厥语支	低资源
kor	韩语	朝鲜文字	朝鲜语系	朝鲜语族	高资源
kur	库尔德语	拉丁文字	印欧语系	伊朗语族	低资源
lao	老挝语	老挝文字	壮侗语系	侗台语族	低资源
lav	拉脱维亚语	拉丁文字	印欧语系	波罗的-斯拉夫语族	中资源
lat	拉丁语	拉丁文字	印欧语系	意大利语族	中资源
lit	立陶宛语	拉丁文字	印欧语系	波罗的-斯拉夫语族	中资源
ltz	卢森堡语	拉丁文字	印欧语系	日耳曼语族	低资源
mal	马拉雅拉姆语	马拉雅拉姆文字	达罗毗荼语系	南达罗毗荼语支	低资源
mar	马拉地语	天城文字	印欧语系	印度-雅利安语支	低资源
mkd	马其顿语	西里尔文字	印欧语系	波罗的-斯拉夫语族	低资源
mlg	马达加斯加语	拉丁文字	南岛语系	马来-波利尼西亚语族	低资源
mlt	马耳他语	拉丁文字	亚非语系	闪米特语族	低资源
mon	蒙古语	西里尔文字	蒙古-契丹语系	蒙古语族	低资源
mri	毛利语	拉丁文字	南岛语系	马来-波利尼西亚语族	低资源
msa	马来语	拉丁文字	南岛语系	马来-波利尼西亚语族	中资源
mya	缅甸语	缅甸文字	汉藏语系	藏缅语族-羌语支	低资源
nep	尼泊尔语	天城文字	印欧语系	印度-雅利安语支	低资源
nld	荷兰语	拉丁文字	印欧语系	日耳曼语族	高资源
nor	挪威语	拉丁文字	印欧语系	日耳曼语族	低资源
nso	北索托语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
nya	齐切瓦语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
ory	奥里亚语	奥里亚文字	印欧语系	印度-雅利安语支	低资源
pan	旁遮普语	古木基文字	印欧语系	印度-雅利安语支	低资源
pes	波斯语	阿拉伯文字	印欧语系	伊朗语族	高资源
pol	波兰语	拉丁文字	印欧语系	波罗的-斯拉夫语族	高资源
por	葡萄牙语	拉丁文字	印欧语系	意大利语族	高资源
pus	普什图语	阿拉伯文字	印欧语系	伊朗语族	低资源
ron	罗马尼亚语	拉丁文字	印欧语系	意大利语族	中资源
rus	俄语	西里尔文字	印欧语系	波罗的-斯拉夫语族	高资源
sin	僧伽罗语	僧伽罗文字	印欧语系	印度-雅利安语支	低资源
slk	斯洛伐克语	拉丁文字	印欧语系	波罗的-斯拉夫语族	中资源
slv	斯洛文尼亚语	拉丁文字	印欧语系	波罗的-斯拉夫语族	中资源
smo	萨摩亚语	拉丁文字	南岛语系	马来-波利尼西亚语族	低资源
sna	修纳语	拉丁文字	印欧语系	印度-雅利安语支	低资源
snd	信德语	阿拉伯文字	印欧语系	印度-雅利安语支	低资源
som	索马里语	拉丁文字	亚非语系	库希特语族	低资源
sot	南索托语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
spa	西班牙语	拉丁文字	印欧语系	意大利语族	高资源
sqi	阿尔巴尼亚语	拉丁文字	印欧语系	阿尔巴尼亚语族	低资源
srp	塞尔维亚语	西里尔文字	印欧语系	波罗的-斯拉夫语族	高资源
sun	巽他语	拉丁文字	南岛语系	马来-波利尼西亚语族	低资源
swa	斯瓦希里语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
swe	瑞典语	拉丁文字	印欧语系	日耳曼语族	高资源
tam	泰米尔语	泰米尔文字	达罗毗荼语系	南达罗毗荼语支	中资源
tel	泰卢固语	泰卢固文字	达罗毗荼语系	南达罗毗荼语支	低资源
tgk	塔吉克语	西里尔文字	印欧语系	伊朗语族	低资源
tha	泰语	泰文字	壮侗语系	侗台语族	中资源
tur	土耳其语	拉丁文字	突厥语系	共同突厥语支	高资源
twi	特维语	拉丁文字	大西洋-刚果语系	尼日尔-刚果语支	低资源
ukr	乌克兰语	西里尔文字	印欧语系	波罗的-斯拉夫语族	中资源
urd	乌尔都语	阿拉伯文字	印欧语系	印度-雅利安语支	中资源
uzb	乌兹别克语	拉丁文字	突厥语系	共同突厥语支	中资源
vie	越南语	拉丁文字	南亚语系	越语族	高资源
xho	科萨语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
yid	意第绪语	希伯来文字	印欧语系	日耳曼语族	低资源
yor	约鲁巴语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源
zho	中文	汉字	汉藏语系	汉语族	高资源
zul	祖鲁语	拉丁文字	大西洋-刚果语系	贝努埃-刚果语支	低资源

模型卡片联系方式

如本模型卡片存在错误，请联系 Ahmet 或 Viraat，邮箱地址：{ahmet, viraat} at cohere dot com。