请注意:此检查点使用BertModel搭配XLMRobertaTokenizer,因此AutoTokenizer不适用于此检查点!
我们在跨语言自然语言推理基准(XNLI)和跨语言问答基准(MLQA)上对多语言MiniLM进行了评估。
| 模型 | 层数 | 隐藏维度 | Transformer参数数量 | 平均值 | 英语 | 法语 | 西班牙语 | 德语 | 希腊语 | 保加利亚语 | 俄语 | 土耳其语 | 阿拉伯语 | 越南语 | 泰语 | 中文 | 印地语 | 斯瓦希里语 | 乌尔都语 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| [mBERT] | 12 | 768 | 8500万 | 66.3 | 82.1 | 73.8 | 74.3 | 71.1 | 66.4 | 68.9 | 69.0 | 61.6 | 64.9 | 69.5 | 55.8 | 69.3 | 60.0 | 50.4 | 58.0 |
| [XLM-100] | 16 | 1280 | 3.15亿 | 70.7 | 83.2 | 76.7 | 77.7 | 74.0 | 72.7 | 74.1 | 72.7 | 68.7 | 68.6 | 72.9 | 68.9 | 72.5 | 65.6 | 58.2 | 62.4 |
| [XLM-R Base] | 12 | 768 | 8500万 | 74.5 | 84.6 | 78.4 | 78.9 | 76.8 | 75.9 | 77.3 | 75.4 | 73.2 | 71.5 | 75.4 | 72.5 | 74.9 | 71.1 | 65.2 | 66.5 |
| mMiniLM-L12xH384 | 12 | 384 | 2100万 | 71.1 | 81.5 | 74.8 | 75.7 | 72.9 | 73.0 | 74.5 | 71.3 | 69.7 | 68.8 | 72.1 | 67.8 | 70.0 | 66.2 | 63.3 | 64.2 |
此示例代码在XNLI上对12层多语言MiniLM进行微调。
python3 examples/inference.py --model_name_or_path=./参考 [Lewis et al. (2019b)],我们采用 SQuAD 1.1 作为训练数据,并使用 MLQA 英文开发数据进行早停。
| 模型 F1 分数 | 层数 | 隐藏层维度 | Transformer 参数数量 | 平均值 | 英语 | 西班牙语 | 德语 | 阿拉伯语 | 印地语 | 越南语 | 中文 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| [mBERT] | 12 | 768 | 85M | 57.7 | 77.7 | 64.3 | 57.9 | 45.7 | 43.8 | 57.1 | 57.5 |
| [XLM-15] | 12 | 1024 | 151M | 61.6 | 74.9 | 68.0 | 62.2 | 54.8 | 48.8 | 61.4 | 61.1 |
| [XLM-R Base] (Reported) | 12 | 768 | 85M | 62.9 | 77.8 | 67.2 | 60.8 | 53.0 | 57.9 | 63.1 | 60.2 |
| [XLM-R Base] (Our fine-tuned) | 12 | 768 | 85M | 64.9 | 80.3 | 67.0 | 62.7 | 55.0 | 60.4 | 66.5 | 62.3 |
| mMiniLM-L12xH384 | 12 | 384 | 21M | 63.2 | 79.4 | 66.1 | 61.2 | 54.9 | 58.5 | 63.1 | 59.0 |
如果您在研究中发现 MiniLM 有用,请引用以下论文:
@misc{wang2020minilm,
title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers},
author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou},
year={2020},
eprint={2002.10957},
archivePrefix={arXiv},
primaryClass={cs.CL}
}