MiniLM 是源自论文《MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers》的蒸馏模型。

有关 MiniLM 的预处理、训练以及完整细节信息，请参见原始的 MiniLM 仓库。

请注意：此检查点使用 BertModel 和 XLMRobertaTokenizer，因此 AutoTokenizer 不适用于此检查点！

Multilingual-MiniLMv1-L12-H384：12 层，384 隐藏维度，12 头，2100 万 Transformer 参数，9600 万嵌入参数 Multilingual MiniLM 使用与 XLM-R 相同的分词器。但我们模型的 Transformer 架构与 BERT 相同。我们提供基于 huggingface/transformers 在 XNLI 上的微调代码。请将 transformers 中的 run_xnli.py 替换为我们的文件，以对多语言 MiniLM 进行微调。

我们在跨语言自然语言推理基准（XNLI）和跨语言问答基准（MLQA）上对多语言 MiniLM 进行了评估。

我们评估了模型从英语到其他语言的跨语言迁移能力。遵循 Conneau et al. (2019) 的方法，我们在所有语言的联合开发集上选择最佳单一模型。

模型层数隐藏维度 Transformer 参数数量平均值 en fr es de el bg ru tr ar vi th zh hi sw ur mBERT 12 768 85M 66.3 82.1 73.8 74.3 71.1 66.4 68.9 69.0 61.6 64.9 69.5 55.8 69.3 60.0 50.4 58.0 XLM-100 16 1280 315M 70.7 83.2 76.7 77.7 74.0 72.7 74.1 72.7 68.7 68.6 72.9 68.9 72.5 65.6 58.2 62.4 XLM-R Base 12 768 85M 74.5 84.6 78.4 78.9 76.8 75.9 77.3 75.4 73.2 71.5 75.4 72.5 74.9 71.1 65.2 66.5 mMiniLM-L12xH384 12 384 21M 71.1 81.5 74.8 75.7 72.9 73.0 74.5 71.3 69.7 68.8 72.1 67.8 70.0 66.2 63.3 64.2

此示例代码在 XNLI 上微调 12 层多语言 MiniLM。

在 XNLI 上运行微调

DATA_DIR=/{数据路径}/ OUTPUT_DIR=/{微调模型路径}/ MODEL_PATH=/{预训练模型路径}/

python ./examples/run_xnli.py --model_type minilm
--output_dir ${OUTPUT_DIR} --data_dir$ {DATA_DIR}
--model_name_or_path microsoft/Multilingual-MiniLM-L12-H384
--tokenizer_name xlm-roberta-base
--config_name ${MODEL_PATH}/multilingual-minilm-l12-h384-config.json
--do_train
--do_eval
--max_seq_length 128
--per_gpu_train_batch_size 128
--learning_rate 5e-5
--num_train_epochs 5
--per_gpu_eval_batch_size 32
--weight_decay 0.001
--warmup_steps 500
--save_steps 1500
--logging_steps 1500
--eval_all_checkpoints
--language en
--fp16
--fp16_opt_level O2

遵循 Lewis et al. (2019b) 的方法，我们采用 SQuAD 1.1 作为训练数据，并使用 MLQA 英语开发数据进行早停。

模型 F1 分数层数隐藏维度 Transformer 参数数量平均值 en es de ar hi vi zh mBERT 12 768 85M 57.7 77.7 64.3 57.9 45.7 43.8 57.1 57.5 XLM-15 12 1024 151M 61.6 74.9 68.0 62.2 54.8 48.8 61.4 61.1 XLM-R Base（报告值） 12 768 85M 62.9 77.8 67.2 60.8 53.0 57.9 63.1 60.2 XLM-R Base（我们微调） 12 768 85M 64.9 80.3 67.0 62.7 55.0 60.4 66.5 62.3 mMiniLM-L12xH384 12 384 21M 63.2 79.4 66.1 61.2 54.9 58.5 63.1 59.0

如果您在研究中发现 MiniLM 有用，请引用以下论文：

@misc{wang2020minilm, title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers}, author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou}, year={2020}, eprint={2002.10957}, archivePrefix={arXiv}, primaryClass={cs.CL} }

在 XNLI 上运行微调

DATA_DIR=/{数据路径}/ OUTPUT_DIR=/{微调模型路径}/ MODEL_PATH=/{预训练模型路径}/

python ./examples/run_xnli.py --model_type minilm
--output_dir

{OUTPUT_DIR} --data_dir

{DATA_DIR}
--model_name_or_path microsoft/Multilingual-MiniLM-L12-H384
--tokenizer_name xlm-roberta-base
--config_name ${MODEL_PATH}/multilingual-minilm-l12-h384-config.json
--do_train
--do_eval
--max_seq_length 128
--per_gpu_train_batch_size 128
--learning_rate 5e-5
--num_train_epochs 5
--per_gpu_eval_batch_size 32
--weight_decay 0.001
--warmup_steps 500
--save_steps 1500
--logging_steps 1500
--eval_all_checkpoints
--language en
--fp16
--fp16_opt_level O2

遵循 Lewis et al. (2019b) 的方法，我们采用 SQuAD 1.1 作为训练数据，并使用 MLQA 英语开发数据进行早停。

如果您在研究中发现 MiniLM 有用，请引用以下论文：