Qwen1.5-MoE 是一种基于 Transformer 的 MoE(专家混合)解码器语言模型,经过大量数据预训练。
Qwen1.5-MoE 采用了专家混合(MoE)架构,模型由密集语言模型升级而来。例如,Qwen1.5-MoE-A2.7B 是从 Qwen-1.8B 升级而来。它总共拥有 14.3B 参数,运行时激活的参数为 2.7B,同时其性能与 Qwen1.5-7B 相当,但仅需 25% 的训练资源。我们还观察到,其推理速度是 Qwen1.5-7B 的 1.74 倍。
Qwen1.5-MoE 的代码已集成至最新的 Hugging Face Transformers 中,我们建议您通过命令 pip install git+https://github.com/huggingface/transformers 从源码构建,否则可能会遇到以下错误:
KeyError: 'qwen2_moe'.我们不推荐您直接使用基础语言模型进行文本生成。相反,您可以在该模型上应用后训练,例如SFT、RLHF、持续预训练等方法。