本仓库收集了使用瑞芯微 rkllm-toolkit 转换、兼容其芯片的大语言模型集合。
包含专为 Orange Pi 5、NanoPi R6 和 Radxa Rock 5 等单板计算机中 RK3588 NPU 优化的转换后模型。
GitHub 主仓库查看安装与使用指南:https://github.com/Pelochus/ezrknpu
运行任何大语言模型前请注意:所需内存约为模型大小的 1.5-3 倍(此为预估值,尚未进行深入测试)。
目前已转换的模型如下:
| 模型名称 | 参数量 | 链接 |
|---|---|---|
| Qwen 2 | 15亿 | https://huggingface.co/Pelochus/deepseek-R1-distill-qwen-1.5B |
| Qwen Chat | 18亿 | https://huggingface.co/Pelochus/qwen-1_8B-rk3588 |
| Gemma | 20亿 | https://huggingface.co/Pelochus/gemma-2b-rk3588 |
| Microsoft Phi-2 | 27亿 | https://huggingface.co/Pelochus/phi-2-rk3588 |
| Microsoft Phi-3 Mini | 38亿 | https://huggingface.co/Pelochus/phi-3-mini-rk3588 |
| Llama 2 7B | 70亿 | https://huggingface.co/Pelochus/llama2-chat-7b-hf-rk3588 |
| Llama 2 13B | 130亿 | https://huggingface.co/Pelochus/llama2-chat-13b-hf-rk3588 |
| TinyLlama v1 | 11亿 | https://huggingface.co/Pelochus/tinyllama-v1-rk3588 |
| Qwen 1.5 Chat | 40亿 | https://huggingface.co/Pelochus/qwen1.5-chat-4B-rk3588 |
| Qwen 2 | 15亿 | https://huggingface.co/Pelochus/qwen2-1_5B-rk3588 |
Llama 2 模型通过 Azure 服务器完成转换。
参考数据:转换 Phi-2 时峰值内存占用约 15 GB + 25 GB 交换空间(含操作系统,系统本身约占 2 GB)。
转换 Llama 2 7B 时峰值内存占用约 32 GB + 50 GB 交换空间。
使用:
git clone 此处填入上表中的链接
然后(可能不需要):
git lfs pull
如果首次克隆遇到问题(耗时过长),也可使用:
GIT_LFS_SKIP_SMUDGE=1 git clone 此处填入上表中的链接
之后在克隆的文件夹内执行 'git lfs pull' 以下载完整模型。
RK3588 仅支持 w8a8 量化,因此所有模型均采用此量化方式。 此外,RKLLM 工具包支持无优化(0)和优化(1)两种模式。 所有模型均经过优化处理。