HuggingFace镜像/Multilingual-MiniLM-L12-H384
模型介绍文件和版本分析
下载使用量0

MiniLM:用于语言理解与生成的小型快速预训练模型

请注意:此检查点使用BertModel搭配XLMRobertaTokenizer,因此AutoTokenizer不适用于此检查点!

多语言预训练模型

  • Multilingual-MiniLMv1-L12-H384:12层,384隐藏维度,12个注意力头,2100万Transformer参数,9600万嵌入参数

我们在跨语言自然语言推理基准(XNLI)和跨语言问答基准(MLQA)上对多语言MiniLM进行了评估。

模型层数隐藏维度Transformer参数数量平均值英语法语西班牙语德语希腊语保加利亚语俄语土耳其语阿拉伯语越南语泰语中文印地语斯瓦希里语乌尔都语
[mBERT]127688500万66.382.173.874.371.166.468.969.061.664.969.555.869.360.050.458.0
[XLM-100]1612803.15亿70.783.276.777.774.072.774.172.768.768.672.968.972.565.658.262.4
[XLM-R Base]127688500万74.584.678.478.976.875.977.375.473.271.575.472.574.971.165.266.5
mMiniLM-L12xH384123842100万71.181.574.875.772.973.074.571.369.768.872.167.870.066.263.364.2

此示例代码在XNLI上对12层多语言MiniLM进行微调。

python3 examples/inference.py --model_name_or_path=./

跨语言问答 - [MLQA]

参考 [Lewis et al. (2019b)],我们采用 SQuAD 1.1 作为训练数据,并使用 MLQA 英文开发数据进行早停。

模型 F1 分数层数隐藏层维度Transformer 参数数量平均值英语西班牙语德语阿拉伯语印地语越南语中文
[mBERT]1276885M57.777.764.357.945.743.857.157.5
[XLM-15]121024151M61.674.968.062.254.848.861.461.1
[XLM-R Base] (Reported)1276885M62.977.867.260.853.057.963.160.2
[XLM-R Base] (Our fine-tuned)1276885M64.980.367.062.755.060.466.562.3
mMiniLM-L12xH3841238421M63.279.466.161.254.958.563.159.0

引用

如果您在研究中发现 MiniLM 有用,请引用以下论文:

@misc{wang2020minilm,
    title={MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers},
    author={Wenhui Wang and Furu Wei and Li Dong and Hangbo Bao and Nan Yang and Ming Zhou},
    year={2020},
    eprint={2002.10957},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}