模型 Yaml

Mistral-7B-v0.1 大型语言模型（LLM）是一个拥有 70 亿参数的预训练生成式文本模型。在我们测试的所有基准上，Mistral-7B-v0.1 的性能均优于 Llama 2 13B。

有关此模型的完整详细信息，请阅读我们的论文和发布博客文章。

模型架构

Mistral-7B-v0.1 是一个 transformer 模型，其架构选择如下：

分组查询注意力（Grouped-Query Attention）
滑动窗口注意力（Sliding-Window Attention）
字节回退 BPE 分词器（Byte-fallback BPE tokenizer）

故障排除

如果您遇到以下错误：

KeyError: 'mistral'

或者：

NotImplementedError: Cannot copy out of meta tensor; no data!

请确保您使用的是稳定版本的Transformers，4.34.0或更新版本。

注意事项

Mistral 7B是一个预训练基础模型，因此不具备任何内容审核机制。

Mistral AI团队

Albert Jiang、Alexandre Sablayrolles、Arthur Mensch、Chris Bamford、Devendra Singh Chaplot、Diego de las Casas、Florian Bressand、Gianna Lengyel、Guillaume Lample、Lélio Renard Lavaud、Lucile Saulnier、Marie-Anne Lachaux、Pierre Stock、Teven Le Scao、Thibaut Lavril、Thomas Wang、Timothée Lacroix、William El Sayed。

指标	数值
平均值	62.42
AI2推理挑战（25次示例）	62.37
HellaSwag（10次示例）	82.84
MMLU（5次示例）	63.38
TruthfulQA（0次示例）	49.62
Winogrande（5次示例）	78.30
GSM8k（5次示例）	37.98