HuggingFace镜像/Kant-Test-0.1-Mistral-7B
模型介绍文件和版本分析
下载使用量0

模型 Yaml

Mistral-7B-v0.1 大型语言模型(LLM)是一个拥有 70 亿参数的预训练生成式文本模型。 在我们测试的所有基准上,Mistral-7B-v0.1 的性能均优于 Llama 2 13B。

有关此模型的完整详细信息,请阅读我们的 论文 和 发布博客文章。

模型架构

Mistral-7B-v0.1 是一个 transformer 模型,其架构选择如下:

  • 分组查询注意力(Grouped-Query Attention)
  • 滑动窗口注意力(Sliding-Window Attention)
  • 字节回退 BPE 分词器(Byte-fallback BPE tokenizer)

故障排除

  • 如果您遇到以下错误:
KeyError: 'mistral'
  • 或者:
NotImplementedError: Cannot copy out of meta tensor; no data!

请确保您使用的是稳定版本的Transformers,4.34.0或更新版本。

注意事项

Mistral 7B是一个预训练基础模型,因此不具备任何内容审核机制。

Mistral AI团队

Albert Jiang、Alexandre Sablayrolles、Arthur Mensch、Chris Bamford、Devendra Singh Chaplot、Diego de las Casas、Florian Bressand、Gianna Lengyel、Guillaume Lample、Lélio Renard Lavaud、Lucile Saulnier、Marie-Anne Lachaux、Pierre Stock、Teven Le Scao、Thibaut Lavril、Thomas Wang、Timothée Lacroix、William El Sayed。

指标数值
平均值62.42
AI2推理挑战(25次示例)62.37
HellaSwag(10次示例)82.84
MMLU(5次示例)63.38
TruthfulQA(0次示例)49.62
Winogrande(5次示例)78.30
GSM8k(5次示例)37.98