Qwen1.5-MoE-A2.7B

简介

Qwen1.5-MoE 是一种基于 Transformer 的 MoE（专家混合）解码器语言模型，经过大量数据预训练。

更多详情，请参阅我们的博客文章和 GitHub 仓库。

模型详情

Qwen1.5-MoE 采用了专家混合（MoE）架构，模型由密集语言模型升级而来。例如，Qwen1.5-MoE-A2.7B 是从 Qwen-1.8B 升级而来。它总共拥有 14.3B 参数，运行时激活的参数为 2.7B，同时其性能与 Qwen1.5-7B 相当，但仅需 25% 的训练资源。我们还观察到，其推理速度是 Qwen1.5-7B 的 1.74 倍。

环境要求

Qwen1.5-MoE 的代码已集成至最新的 Hugging Face Transformers 中，我们建议您通过命令 pip install git+https://github.com/huggingface/transformers 从源码构建，否则可能会遇到以下错误：

KeyError: 'qwen2_moe'.

使用建议

我们不推荐您直接使用基础语言模型进行文本生成。相反，您可以在该模型上应用后训练，例如SFT、RLHF、持续预训练等方法。