权重下载
量化权重下载
使用此方法需要另外准备一台Atlas 800I A2或Atlas 300I DUO,转换成功后需把权重转移至香橙派上
生成量化权重依赖msModelSlim工具,安装方式见此README
W8A8量化权重请使用以下指令生成
# 设置CANN包的环境变量
source /usr/local/Ascend/ascend-toolkit/set_env.sh
# 关闭虚拟内存
export PYTORCH_NPU_ALLOC_CONF=expandable_segments:False
# 进入atb-models目录
cd ${ATB_SPEED_HOME_PATH}
# DeepSeek-R1-Distill-Qwen-7B量化,无回退层,antioutlier使用m4算法配置,使用min-max量化方式,校准数据集使用50条BoolQ数据,在NPU上进行运算
python3 msit/msmodelslim/example/Qwen/quant_qwen.py --model_path $ORG --save_directory $MODEL --calib_file msit/msmodelslim/example/common/boolq.jsonl --w_bit 8 --a_bit 8 --device_type npu --disable_names "lm_head" --anti_method m4| cpu | 包名(其中${version}为实际版本) |
|---|---|
| aarch64 | Ascend-cann-toolkit_${version}_linux-aarch64.run |
# 安装toolkit 以arm为例
chmod +x Ascend-cann-toolkit_${version}_linux-aarch64.run
./Ascend-cann-toolkit_${version}_linux-aarch64.run --install
source /usr/local/Ascend/ascend-toolkit/set_env.sh| 包名 |
|---|
| Ascend-cann-kernels-310b*_${version}_linux.run |
根据芯片型号选择对应的安装包
安装
chmod +x Ascend-cann-kernels-*_${version}_linux.run
./Ascend-cann-kernels-*_${version}_linux.run --install包名(其中${version}为实际版本) |
|---|
| Ascend-cann-nnal_${version}_linux-aarch64.run |
将文件放置在${working_dir}路径下
安装
chmod +x Ascend-cann-nnal_*_linux-*.run
./Ascend-cann-nnal_*_linux-*.run --install --install-path=${working_dir}
source ${working_dir}/nnal/atb/set_env.sh可以使用uname -a指令查看服务器是x86还是aarch架构
可以使用以下指令查看abi是0还是1
python -c "import torch; print(torch.compiled_with_cxx11_abi())"先安装torch 再安装torch_npu
下载
| 包名 |
|---|
| torch-2.1.0-cp310-cp10-linux_aarch64.whl |
| ... |
安装
# 安装torch 2.1.0 的python 3.10 的arm版本为例
pip install torch-2.1.0-cp310-cp310-linux_aarch64.whl下载PyTorch Adapter,安装方法:
| 包名 |
|---|
| pytorch_v2.1.0_py38.tar.gz |
| pytorch_v2.1.0_py39.tar.gz |
| pytorch_v2.1.0_py310.tar.gz |
| ... |
# 安装 torch_npu,以 torch 2.1.0,python 3.10 的版本为例
tar -zxvf pytorch_v2.1.0_py310.tar.gz
pip install torch*_aarch64.whl| 默认依赖 | requirement.txt |
pip install -r ./requirements.txt使用编译好的包进行安装
下载编译好的包
| 包名 |
|---|
| Ascend-mindie-atb-models_1.0.RC1_linux-aarch64_torch1.11.0-abi0.tar.gz |
| Ascend-mindie-atb-models_1.0.RC1_linux-aarch64_torch2.1.0-abi1.tar.gz |
| ... |
将文件放置在${working_dir}路径下
解压
cd ${working_dir}
mkdir MindIE-LLM
cd MindIE-LLM
tar -zxvf ../Ascend-mindie-atb-models_*_linux-*_torch*-abi*.tar.gz安装atb_llm whl包
cd ${working_dir}/MindIE-LLM
# 首次安装
pip install atb_llm-0.0.1-py3-none-any.whl
# 更新
pip install atb_llm-0.0.1-py3-none-any.whl --force-reinstall进入llm_model路径
cd $ATB_SPEED_HOME_PATH执行对话测试
python -m examples.run_fa_edge \
--model_path ${权重路径} \
--input_text 'What is deep learning?' \
--max_output_length 20 \
--is_chat_model \