
Aya 模型是一款大规模多语言生成式语言模型,可遵循 101 种语言的指令。 尽管覆盖的语言数量翻倍,但在各种自动和人工评估中,Aya 的表现仍优于 mT0 和 BLOOMZ。 Aya 模型的训练数据包括 xP3x、Aya Dataset、Aya Collection、DataProvenance collection 的一个子集以及 ShareGPT-Command。 我们以 Apache-2.0 许可证发布检查点,以推进我们的使命——让多语言技术赋能多语言世界。
# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
checkpoint = "CohereForAI/aya-101"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)
# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model
# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."
Aya模型基于以下数据集进行训练:
所有数据集均被筛选为mT5支持的101种语言。有关筛选和剪枝的详细信息,请参见论文。
有关99种语言的多语言评估(包括判别式和生成式任务、人工评估以及涵盖预留任务和分布内性能的模拟胜率),请参考我们论文的第5节。
有关我们在安全缓解方面的努力以及跨多种语言对毒性和偏差进行基准测试的详细概述,请参考我们论文的第6节和第7节:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model。
我们希望Aya模型的发布能够通过提供一个开源的大规模多语言模型供社区研究,从而使基于社区的红队测试工作成为可能。
BibTeX:
@article{üstün2024aya,
title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
journal={arXiv preprint arXiv:2402.07827},
year={2024}
}以下是用于微调 Aya 模型的语言列表。我们根据 Joshi et. al, 2020 的语言分类,将语言分为高资源、中资源和低资源三类。有关更多详细信息,请参阅我们的 论文
| ISO 代码 | 语言名称 | 文字 | 语系 | 亚语系 | 资源丰富度 |
|---|---|---|---|---|---|
| afr | 南非荷兰语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 中资源 |
| amh | 阿姆哈拉语 | 吉兹文字 | 亚非语系 | 闪米特语族 | 低资源 |
| ara | 阿拉伯语 | 阿拉伯文字 | 亚非语系 | 闪米特语族 | 高资源 |
| aze | 阿塞拜疆语 | 阿拉伯/拉丁文字 | 突厥语系 | 共同突厥语支 | 低资源 |
| bel | 白俄罗斯语 | 西里尔文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| ben | 孟加拉语 | 孟加拉文字 | 印欧语系 | 印度-雅利安语支 | 中资源 |
| bul | 保加利亚语 | 西里尔文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| cat | 加泰罗尼亚语 | 拉丁文字 | 印欧语系 | 意大利语族 | 高资源 |
| ceb | 宿务语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 中资源 |
| ces | 捷克语 | 拉丁文字 | 印欧语系 | 波罗的-斯拉夫语族 | 高资源 |
| cym | 威尔士语 | 拉丁文字 | 印欧语系 | 凯尔特语族 | 低资源 |
| dan | 丹麦语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 中资源 |
| deu | 德语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 高资源 |
| ell | 希腊语 | 希腊文字 | 印欧语系 | 希腊-弗里吉亚语族 | 中资源 |
| eng | 英语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 高资源 |
| epo | 世界语 | 拉丁文字 | 人工语言 | 世界语支 | 低资源 |
| est | 爱沙尼亚语 | 拉丁文字 | 乌拉尔语系 | 芬兰语族 | 中资源 |
| eus | 巴斯克语 | 拉丁文字 | 巴斯克语系 | - | 高资源 |
| fin | 芬兰语 | 拉丁文字 | 乌拉尔语系 | 芬兰语族 | 高资源 |
| fil | 他加禄语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 中资源 |
| fra | 法语 | 拉丁文字 | 印欧语系 | 意大利语族 | 高资源 |
| fry | 西弗里西亚语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 低资源 |
| gla | 苏格兰盖尔语 | 拉丁文字 | 印欧语系 | 凯尔特语族 | 低资源 |
| gle | 爱尔兰语 | 拉丁文字 | 印欧语系 | 凯尔特语族 | 低资源 |
| glg | 加利西亚语 | 拉丁文字 | 印欧语系 | 意大利语族 | 中资源 |
| guj | 古吉拉特语 | 古吉拉特文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| hat | 海地克里奥尔语 | 拉丁文字 | 印欧语系 | 意大利语族 | 低资源 |
| hau | 豪萨语 | 拉丁文字 | 亚非语系 | 乍得语族 | 低资源 |
| heb | 希伯来语 | 希伯来文字 | 亚非语系 | 闪米特语族 | 中资源 |
| hin | 印地语 | 天城文字 | 印欧语系 | 印度-雅利安语支 | 高资源 |
| hun | 匈牙利语 | 拉丁文字 | 乌拉尔语系 | - | 高资源 |
| hye | 亚美尼亚语 | 亚美尼亚文字 | 印欧语系 | 亚美尼亚语族 | 低资源 |
| ibo | 伊博语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| ind | 印度尼西亚语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 中资源 |
| isl | 冰岛语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 低资源 |
| ita | 意大利语 | 拉丁文字 | 印欧语系 | 意大利语族 | 高资源 |
| jav | 爪哇语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 低资源 |
| jpn | 日语 | 日本文字 | 日本语系 | 日本语支 | 高资源 |
| kan | 卡纳达语 | 卡纳达文字 | 达罗毗荼语系 | 南达罗毗荼语支 | 低资源 |
| kat | 格鲁吉亚语 | 格鲁吉亚文字 | 卡特维尔语系 | 格鲁吉亚-赞语支 | 中资源 |
| kaz | 哈萨克语 | 西里尔文字 | 突厥语系 | 共同突厥语支 | 中资源 |
| khm | 高棉语 | 高棉文字 | 南亚语系 | 高棉语族 | 低资源 |
| kir | 吉尔吉斯语 | 西里尔文字 | 突厥语系 | 共同突厥语支 | 低资源 |
| kor | 韩语 | 朝鲜文字 | 朝鲜语系 | 朝鲜语族 | 高资源 |
| kur | 库尔德语 | 拉丁文字 | 印欧语系 | 伊朗语族 | 低资源 |
| lao | 老挝语 | 老挝文字 | 壮侗语系 | 侗台语族 | 低资源 |
| lav | 拉脱维亚语 | 拉丁文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| lat | 拉丁语 | 拉丁文字 | 印欧语系 | 意大利语族 | 中资源 |
| lit | 立陶宛语 | 拉丁文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| ltz | 卢森堡语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 低资源 |
| mal | 马拉雅拉姆语 | 马拉雅拉姆文字 | 达罗毗荼语系 | 南达罗毗荼语支 | 低资源 |
| mar | 马拉地语 | 天城文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| mkd | 马其顿语 | 西里尔文字 | 印欧语系 | 波罗的-斯拉夫语族 | 低资源 |
| mlg | 马达加斯加语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 低资源 |
| mlt | 马耳他语 | 拉丁文字 | 亚非语系 | 闪米特语族 | 低资源 |
| mon | 蒙古语 | 西里尔文字 | 蒙古-契丹语系 | 蒙古语族 | 低资源 |
| mri | 毛利语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 低资源 |
| msa | 马来语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 中资源 |
| mya | 缅甸语 | 缅甸文字 | 汉藏语系 | 藏缅语族-羌语支 | 低资源 |
| nep | 尼泊尔语 | 天城文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| nld | 荷兰语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 高资源 |
| nor | 挪威语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 低资源 |
| nso | 北索托语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| nya | 齐切瓦语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| ory | 奥里亚语 | 奥里亚文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| pan | 旁遮普语 | 古木基文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| pes | 波斯语 | 阿拉伯文字 | 印欧语系 | 伊朗语族 | 高资源 |
| pol | 波兰语 | 拉丁文字 | 印欧语系 | 波罗的-斯拉夫语族 | 高资源 |
| por | 葡萄牙语 | 拉丁文字 | 印欧语系 | 意大利语族 | 高资源 |
| pus | 普什图语 | 阿拉伯文字 | 印欧语系 | 伊朗语族 | 低资源 |
| ron | 罗马尼亚语 | 拉丁文字 | 印欧语系 | 意大利语族 | 中资源 |
| rus | 俄语 | 西里尔文字 | 印欧语系 | 波罗的-斯拉夫语族 | 高资源 |
| sin | 僧伽罗语 | 僧伽罗文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| slk | 斯洛伐克语 | 拉丁文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| slv | 斯洛文尼亚语 | 拉丁文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| smo | 萨摩亚语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 低资源 |
| sna | 修纳语 | 拉丁文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| snd | 信德语 | 阿拉伯文字 | 印欧语系 | 印度-雅利安语支 | 低资源 |
| som | 索马里语 | 拉丁文字 | 亚非语系 | 库希特语族 | 低资源 |
| sot | 南索托语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| spa | 西班牙语 | 拉丁文字 | 印欧语系 | 意大利语族 | 高资源 |
| sqi | 阿尔巴尼亚语 | 拉丁文字 | 印欧语系 | 阿尔巴尼亚语族 | 低资源 |
| srp | 塞尔维亚语 | 西里尔文字 | 印欧语系 | 波罗的-斯拉夫语族 | 高资源 |
| sun | 巽他语 | 拉丁文字 | 南岛语系 | 马来-波利尼西亚语族 | 低资源 |
| swa | 斯瓦希里语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| swe | 瑞典语 | 拉丁文字 | 印欧语系 | 日耳曼语族 | 高资源 |
| tam | 泰米尔语 | 泰米尔文字 | 达罗毗荼语系 | 南达罗毗荼语支 | 中资源 |
| tel | 泰卢固语 | 泰卢固文字 | 达罗毗荼语系 | 南达罗毗荼语支 | 低资源 |
| tgk | 塔吉克语 | 西里尔文字 | 印欧语系 | 伊朗语族 | 低资源 |
| tha | 泰语 | 泰文字 | 壮侗语系 | 侗台语族 | 中资源 |
| tur | 土耳其语 | 拉丁文字 | 突厥语系 | 共同突厥语支 | 高资源 |
| twi | 特维语 | 拉丁文字 | 大西洋-刚果语系 | 尼日尔-刚果语支 | 低资源 |
| ukr | 乌克兰语 | 西里尔文字 | 印欧语系 | 波罗的-斯拉夫语族 | 中资源 |
| urd | 乌尔都语 | 阿拉伯文字 | 印欧语系 | 印度-雅利安语支 | 中资源 |
| uzb | 乌兹别克语 | 拉丁文字 | 突厥语系 | 共同突厥语支 | 中资源 |
| vie | 越南语 | 拉丁文字 | 南亚语系 | 越语族 | 高资源 |
| xho | 科萨语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| yid | 意第绪语 | 希伯来文字 | 印欧语系 | 日耳曼语族 | 低资源 |
| yor | 约鲁巴语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
| zho | 中文 | 汉字 | 汉藏语系 | 汉语族 | 高资源 |
| zul | 祖鲁语 | 拉丁文字 | 大西洋-刚果语系 | 贝努埃-刚果语支 | 低资源 |
如本模型卡片存在错误,请联系 Ahmet 或 Viraat,邮箱地址:{ahmet, viraat} at cohere dot com。