HuggingFace镜像/qwen1_5_7b
模型介绍文件和版本分析
下载使用量0

Qwen1.5-7B

修改说明

针对openMind的修改。

简介

Qwen1.5是Qwen2的测试版,是一款基于Transformer的仅解码器语言模型,在大量数据上进行了预训练。与之前发布的Qwen相比,其改进包括:

  • 8种模型规模,包括0.5B、1.8B、4B、7B、14B、32B和72B的密集型模型,以及一个14B的MoE模型(激活参数为2.7B);
  • 聊天模型性能显著提升;
  • 基础模型和聊天模型均支持多语言;
  • 所有规模的模型均稳定支持32K上下文长度;
  • 无需trust_remote_code。

更多详情,请参阅我们的博客文章和GitHub仓库。

模型详情

Qwen1.5是一个语言模型系列,包含不同规模的解码器语言模型。对于每种规模,我们都会发布基础语言模型和经过对齐的聊天模型。该模型基于Transformer架构,采用SwiGLU激活函数、注意力QKV偏置、分组查询注意力、滑动窗口注意力与全注意力混合等技术。此外,我们还改进了分词器,使其能适配多种自然语言和代码。在测试版中,我们暂未包含GQA(32B模型除外)以及滑动窗口注意力与全注意力的混合机制。

环境要求

Qwen1.5的代码已集成到最新版的Hugging Face Transformers中,建议您安装mindformers=r1.2.0。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py