HuggingFace镜像/aya-101
模型介绍文件和版本分析
下载使用量0

Aya model summary image

Aya 101 模型卡片

模型概述

Aya 模型是一款大规模多语言生成式语言模型,可遵循 101 种语言的指令。 尽管覆盖的语言数量翻倍,但在各种自动和人工评估中,Aya 的表现仍优于 mT0 和 BLOOMZ。 Aya 模型的训练数据包括 xP3x、Aya Dataset、Aya Collection、DataProvenance collection 的一个子集以及 ShareGPT-Command。 我们以 Apache-2.0 许可证发布检查点,以推进我们的使命——让多语言技术赋能多语言世界。

  • 开发机构: Cohere For AI
  • 模型类型: Transformer 风格的自回归大规模多语言语言模型。
  • 论文: Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model
  • 联系方式: Cohere For AI:cohere.for.ai
  • 语言: 请参阅本模型卡片“语言”部分中的语言列表。
  • 许可证: Apache-2.0
  • 模型: Aya-101
  • 模型规模: 130 亿参数
  • 数据集: xP3x、Aya Dataset、Aya Collection、DataProvenance collection、ShareGPT-Command。

使用

# pip install -q transformers
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

checkpoint = "CohereForAI/aya-101"

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
aya_model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint)

# Turkish to English translation
tur_inputs = tokenizer.encode("Translate to English: Aya cok dilli bir dil modelidir.", return_tensors="pt")
tur_outputs = aya_model.generate(tur_inputs, max_new_tokens=128)
print(tokenizer.decode(tur_outputs[0]))
# Aya is a multi-lingual language model

# Q: Why are there so many languages in India?
hin_inputs = tokenizer.encode("भारत में इतनी सारी भाषाएँ क्यों हैं?", return_tensors="pt")
hin_outputs = aya_model.generate(hin_inputs, max_new_tokens=128)
print(tokenizer.decode(hin_outputs[0]))
# Expected output: भारत में कई भाषाएँ हैं और विभिन्न भाषाओं के बोली जाने वाले लोग हैं। यह विभिन्नता भाषाई विविधता और सांस्कृतिक विविधता का परिणाम है। Translates to "India has many languages and people speaking different languages. This diversity is the result of linguistic diversity and cultural diversity."

模型详情

微调

  • 架构:与mt5-xxl相同
  • 微调期间的样本数量:2500万
  • 批处理大小:256
  • 硬件:TPUv4-128
  • 软件:T5X、Jax

数据来源

Aya模型基于以下数据集进行训练:

  • xP3x
  • Aya Dataset
  • Aya Collection
  • DataProvenance collection
  • ShareGPT-Command

所有数据集均被筛选为mT5支持的101种语言。有关筛选和剪枝的详细信息,请参见论文。

评估

有关99种语言的多语言评估(包括判别式和生成式任务、人工评估以及涵盖预留任务和分布内性能的模拟胜率),请参考我们论文的第5节。

偏差、风险与局限性

有关我们在安全缓解方面的努力以及跨多种语言对毒性和偏差进行基准测试的详细概述,请参考我们论文的第6节和第7节:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model。

我们希望Aya模型的发布能够通过提供一个开源的大规模多语言模型供社区研究,从而使基于社区的红队测试工作成为可能。

引用

BibTeX:

@article{üstün2024aya,
  title={Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model},
  author={Ahmet Üstün and Viraat Aryabumi and Zheng-Xin Yong and Wei-Yin Ko and Daniel D'souza and Gbemileke Onilude and Neel Bhandari and Shivalika Singh and Hui-Lee Ooi and Amr Kayid and Freddie Vargus and Phil Blunsom and Shayne Longpre and Niklas Muennighoff and Marzieh Fadaee and Julia Kreutzer and Sara Hooker},
  journal={arXiv preprint arXiv:2402.07827},
  year={2024}
}

涵盖语言

点击查看涵盖语言

以下是用于微调 Aya 模型的语言列表。我们根据 Joshi et. al, 2020 的语言分类,将语言分为高资源、中资源和低资源三类。有关更多详细信息,请参阅我们的 论文

ISO 代码语言名称文字语系亚语系资源丰富度
afr南非荷兰语拉丁文字印欧语系日耳曼语族中资源
amh阿姆哈拉语吉兹文字亚非语系闪米特语族低资源
ara阿拉伯语阿拉伯文字亚非语系闪米特语族高资源
aze阿塞拜疆语阿拉伯/拉丁文字突厥语系共同突厥语支低资源
bel白俄罗斯语西里尔文字印欧语系波罗的-斯拉夫语族中资源
ben孟加拉语孟加拉文字印欧语系印度-雅利安语支中资源
bul保加利亚语西里尔文字印欧语系波罗的-斯拉夫语族中资源
cat加泰罗尼亚语拉丁文字印欧语系意大利语族高资源
ceb宿务语拉丁文字南岛语系马来-波利尼西亚语族中资源
ces捷克语拉丁文字印欧语系波罗的-斯拉夫语族高资源
cym威尔士语拉丁文字印欧语系凯尔特语族低资源
dan丹麦语拉丁文字印欧语系日耳曼语族中资源
deu德语拉丁文字印欧语系日耳曼语族高资源
ell希腊语希腊文字印欧语系希腊-弗里吉亚语族中资源
eng英语拉丁文字印欧语系日耳曼语族高资源
epo世界语拉丁文字人工语言世界语支低资源
est爱沙尼亚语拉丁文字乌拉尔语系芬兰语族中资源
eus巴斯克语拉丁文字巴斯克语系-高资源
fin芬兰语拉丁文字乌拉尔语系芬兰语族高资源
fil他加禄语拉丁文字南岛语系马来-波利尼西亚语族中资源
fra法语拉丁文字印欧语系意大利语族高资源
fry西弗里西亚语拉丁文字印欧语系日耳曼语族低资源
gla苏格兰盖尔语拉丁文字印欧语系凯尔特语族低资源
gle爱尔兰语拉丁文字印欧语系凯尔特语族低资源
glg加利西亚语拉丁文字印欧语系意大利语族中资源
guj古吉拉特语古吉拉特文字印欧语系印度-雅利安语支低资源
hat海地克里奥尔语拉丁文字印欧语系意大利语族低资源
hau豪萨语拉丁文字亚非语系乍得语族低资源
heb希伯来语希伯来文字亚非语系闪米特语族中资源
hin印地语天城文字印欧语系印度-雅利安语支高资源
hun匈牙利语拉丁文字乌拉尔语系-高资源
hye亚美尼亚语亚美尼亚文字印欧语系亚美尼亚语族低资源
ibo伊博语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
ind印度尼西亚语拉丁文字南岛语系马来-波利尼西亚语族中资源
isl冰岛语拉丁文字印欧语系日耳曼语族低资源
ita意大利语拉丁文字印欧语系意大利语族高资源
jav爪哇语拉丁文字南岛语系马来-波利尼西亚语族低资源
jpn日语日本文字日本语系日本语支高资源
kan卡纳达语卡纳达文字达罗毗荼语系南达罗毗荼语支低资源
kat格鲁吉亚语格鲁吉亚文字卡特维尔语系格鲁吉亚-赞语支中资源
kaz哈萨克语西里尔文字突厥语系共同突厥语支中资源
khm高棉语高棉文字南亚语系高棉语族低资源
kir吉尔吉斯语西里尔文字突厥语系共同突厥语支低资源
kor韩语朝鲜文字朝鲜语系朝鲜语族高资源
kur库尔德语拉丁文字印欧语系伊朗语族低资源
lao老挝语老挝文字壮侗语系侗台语族低资源
lav拉脱维亚语拉丁文字印欧语系波罗的-斯拉夫语族中资源
lat拉丁语拉丁文字印欧语系意大利语族中资源
lit立陶宛语拉丁文字印欧语系波罗的-斯拉夫语族中资源
ltz卢森堡语拉丁文字印欧语系日耳曼语族低资源
mal马拉雅拉姆语马拉雅拉姆文字达罗毗荼语系南达罗毗荼语支低资源
mar马拉地语天城文字印欧语系印度-雅利安语支低资源
mkd马其顿语西里尔文字印欧语系波罗的-斯拉夫语族低资源
mlg马达加斯加语拉丁文字南岛语系马来-波利尼西亚语族低资源
mlt马耳他语拉丁文字亚非语系闪米特语族低资源
mon蒙古语西里尔文字蒙古-契丹语系蒙古语族低资源
mri毛利语拉丁文字南岛语系马来-波利尼西亚语族低资源
msa马来语拉丁文字南岛语系马来-波利尼西亚语族中资源
mya缅甸语缅甸文字汉藏语系藏缅语族-羌语支低资源
nep尼泊尔语天城文字印欧语系印度-雅利安语支低资源
nld荷兰语拉丁文字印欧语系日耳曼语族高资源
nor挪威语拉丁文字印欧语系日耳曼语族低资源
nso北索托语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
nya齐切瓦语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
ory奥里亚语奥里亚文字印欧语系印度-雅利安语支低资源
pan旁遮普语古木基文字印欧语系印度-雅利安语支低资源
pes波斯语阿拉伯文字印欧语系伊朗语族高资源
pol波兰语拉丁文字印欧语系波罗的-斯拉夫语族高资源
por葡萄牙语拉丁文字印欧语系意大利语族高资源
pus普什图语阿拉伯文字印欧语系伊朗语族低资源
ron罗马尼亚语拉丁文字印欧语系意大利语族中资源
rus俄语西里尔文字印欧语系波罗的-斯拉夫语族高资源
sin僧伽罗语僧伽罗文字印欧语系印度-雅利安语支低资源
slk斯洛伐克语拉丁文字印欧语系波罗的-斯拉夫语族中资源
slv斯洛文尼亚语拉丁文字印欧语系波罗的-斯拉夫语族中资源
smo萨摩亚语拉丁文字南岛语系马来-波利尼西亚语族低资源
sna修纳语拉丁文字印欧语系印度-雅利安语支低资源
snd信德语阿拉伯文字印欧语系印度-雅利安语支低资源
som索马里语拉丁文字亚非语系库希特语族低资源
sot南索托语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
spa西班牙语拉丁文字印欧语系意大利语族高资源
sqi阿尔巴尼亚语拉丁文字印欧语系阿尔巴尼亚语族低资源
srp塞尔维亚语西里尔文字印欧语系波罗的-斯拉夫语族高资源
sun巽他语拉丁文字南岛语系马来-波利尼西亚语族低资源
swa斯瓦希里语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
swe瑞典语拉丁文字印欧语系日耳曼语族高资源
tam泰米尔语泰米尔文字达罗毗荼语系南达罗毗荼语支中资源
tel泰卢固语泰卢固文字达罗毗荼语系南达罗毗荼语支低资源
tgk塔吉克语西里尔文字印欧语系伊朗语族低资源
tha泰语泰文字壮侗语系侗台语族中资源
tur土耳其语拉丁文字突厥语系共同突厥语支高资源
twi特维语拉丁文字大西洋-刚果语系尼日尔-刚果语支低资源
ukr乌克兰语西里尔文字印欧语系波罗的-斯拉夫语族中资源
urd乌尔都语阿拉伯文字印欧语系印度-雅利安语支中资源
uzb乌兹别克语拉丁文字突厥语系共同突厥语支中资源
vie越南语拉丁文字南亚语系越语族高资源
xho科萨语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
yid意第绪语希伯来文字印欧语系日耳曼语族低资源
yor约鲁巴语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源
zho中文汉字汉藏语系汉语族高资源
zul祖鲁语拉丁文字大西洋-刚果语系贝努埃-刚果语支低资源

模型卡片联系方式

如本模型卡片存在错误,请联系 Ahmet 或 Viraat,邮箱地址:{ahmet, viraat} at cohere dot com。