Multilingual-MiniLM-L12-H384:可用于跨语言自然语言推理、问答等任务，是12层、384隐藏维度的多语言预训练模型，采用BertModel与XLMRobertaTokenizer，参数少且在XNLI、MLQA等基准测试中表现良好。【此简介由AI生成】

MiniLM：用于语言理解与生成的小型快速预训练模型

请注意：此检查点使用BertModel搭配XLMRobertaTokenizer，因此AutoTokenizer不适用于此检查点！

多语言预训练模型

Multilingual-MiniLMv1-L12-H384：12层，384隐藏维度，12个注意力头，2100万Transformer参数，9600万嵌入参数

我们在跨语言自然语言推理基准（XNLI）和跨语言问答基准（MLQA）上对多语言MiniLM进行了评估。

模型	层数	隐藏维度	Transformer参数数量	平均值	英语	法语	西班牙语	德语	希腊语	保加利亚语	俄语	土耳其语	阿拉伯语	越南语	泰语	中文	印地语	斯瓦希里语	乌尔都语
[mBERT]	12	768	8500万	66.3	82.1	73.8	74.3	71.1	66.4	68.9	69.0	61.6	64.9	69.5	55.8	69.3	60.0	50.4	58.0
[XLM-100]	16	1280	3.15亿	70.7	83.2	76.7	77.7	74.0	72.7	74.1	72.7	68.7	68.6	72.9	68.9	72.5	65.6	58.2	62.4
[XLM-R Base]	12	768	8500万	74.5	84.6	78.4	78.9	76.8	75.9	77.3	75.4	73.2	71.5	75.4	72.5	74.9	71.1	65.2	66.5
mMiniLM-L12xH384	12	384	2100万	71.1	81.5	74.8	75.7	72.9	73.0	74.5	71.3	69.7	68.8	72.1	67.8	70.0	66.2	63.3	64.2

此示例代码在XNLI上对12层多语言MiniLM进行微调。

python3 examples/inference.py --model_name_or_path=./

跨语言问答 - [MLQA]

参考 [Lewis et al. (2019b)]，我们采用 SQuAD 1.1 作为训练数据，并使用 MLQA 英文开发数据进行早停。

模型 F1 分数	层数	隐藏层维度	Transformer 参数数量	平均值	英语	西班牙语	德语	阿拉伯语	印地语	越南语	中文
[mBERT]	12	768	85M	57.7	77.7	64.3	57.9	45.7	43.8	57.1	57.5
[XLM-15]	12	1024	151M	61.6	74.9	68.0	62.2	54.8	48.8	61.4	61.1
[XLM-R Base] (Reported)	12	768	85M	62.9	77.8	67.2	60.8	53.0	57.9	63.1	60.2
[XLM-R Base] (Our fine-tuned)	12	768	85M	64.9	80.3	67.0	62.7	55.0	60.4	66.5	62.3
mMiniLM-L12xH384	12	384	21M	63.2	79.4	66.1	61.2	54.9	58.5	63.1	59.0

引用

如果您在研究中发现 MiniLM 有用，请引用以下论文：

@misc{wang2020minilm,
    title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers},
    author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou},
    year={2020},
    eprint={2002.10957},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}