gelectra-base-germanquad:可用于德语问答场景，能从德语文本中准确提取问题答案。该项目以gelectra-base为基础，在GermanQuAD数据集上训练，具备良好的德语问答性能，支持生产级NLP系统构建。【此简介由AI生成】

bert_image

概述

语言模型： gelectra-base-germanquad
语言： 德语
训练数据： GermanQuAD 训练集（约 12MB）
评估数据： GermanQuAD 测试集（约 5MB）
基础设施： 1 块 V100 GPU
发布时间： 2021 年 4 月 21 日

详情

我们以 gelectra-base 模型为基础，训练了一个德语问答模型。
所使用的数据集是 GermanQuAD，这是一个全新的德语数据集，由我们手动标注并已在网上发布。
训练数据集为单向标注，包含 11518 个问题和 11518 个答案；测试数据集为三向标注，包含 2204 个问题以及 2204×3−76 = 6536 个答案，其中我们剔除了 76 个错误答案。

更多详情及 SQuAD 格式的数据集下载，请参见 https://deepset.ai/germanquad。

超参数

batch_size = 24
n_epochs = 2
max_seq_len = 384
learning_rate = 3e-5
lr_schedule = LinearWarmup
embeds_dropout_prob = 0.1

性能表现

我们在GermanQuAD测试集上对抽取式问答性能进行了评估。模型类型和训练数据已包含在模型名称中。微调XLM-Roberta时，我们使用了英文SQuAD v2.0数据集。GELECTRA模型在SQuAD v1.1的德语翻译版本上进行热启动，并在GermanQuAD上进行微调。人类基线是针对三向测试集计算的，将一个答案作为预测，另外两个作为真实标签。
performancetable

作者

Timo Möller: timo.moeller@deepset.ai
Julian Risch: julian.risch@deepset.ai
Malte Pietsch: malte.pietsch@deepset.ai

关于我们

deepset是开源NLP框架Haystack的开发公司，该框架旨在帮助您构建可投入生产的NLP系统，其功能包括：问答、摘要、排序等。

我们的其他部分成果：

联系我们并加入Haystack社区

有关Haystack的更多信息，请访问我们的GitHub仓库和文档。

我们还有一个对所有人开放的Discord社区！

Twitter | LinkedIn | Discord | GitHub Discussions | Website

顺便说一下：我们正在招聘！

详情

我们以 gelectra-base 模型为基础，训练了一个德语问答模型。

所使用的数据集是 GermanQuAD，这是一个全新的德语数据集，由我们手动标注并已在网上发布。

训练数据集为单向标注，包含 11518 个问题和 11518 个答案；测试数据集为三向标注，包含 2204 个问题以及 2204×3−76 = 6536 个答案，其中我们剔除了 76 个错误答案。

更多详情及 SQuAD 格式的数据集下载，请参见 https://deepset.ai/germanquad。

性能表现