Qwen1.5-7B

修改说明

针对openMind的修改。

简介

Qwen1.5是Qwen2的测试版，是一款基于Transformer的仅解码器语言模型，在大量数据上进行了预训练。与之前发布的Qwen相比，其改进包括：

8种模型规模，包括0.5B、1.8B、4B、7B、14B、32B和72B的密集型模型，以及一个14B的MoE模型（激活参数为2.7B）；
聊天模型性能显著提升；
基础模型和聊天模型均支持多语言；
所有规模的模型均稳定支持32K上下文长度；
无需trust_remote_code。

更多详情，请参阅我们的博客文章和GitHub仓库。

模型详情

Qwen1.5是一个语言模型系列，包含不同规模的解码器语言模型。对于每种规模，我们都会发布基础语言模型和经过对齐的聊天模型。该模型基于Transformer架构，采用SwiGLU激活函数、注意力QKV偏置、分组查询注意力、滑动窗口注意力与全注意力混合等技术。此外，我们还改进了分词器，使其能适配多种自然语言和代码。在测试版中，我们暂未包含GQA（32B模型除外）以及滑动窗口注意力与全注意力的混合机制。

环境要求

Qwen1.5的代码已集成到最新版的Hugging Face Transformers中，建议您安装mindformers=r1.2.0。

在openMind中使用

环境变量

export PYTHONPATH={path}/mindformers:$PYTHONPATH
export OPENMIND_FRAMEWORK=ms

推理

cd examples
python inference.py