这是 MiniCPM-o 2.6 的 int4 量化版本。
运行 int4 版本将占用更少的 GPU 内存(约 9GB)。
我们正在提交 PR,以正式支持 MiniCPM-o 2.6 的推理功能
git clone https://github.com/RanchiZhao/AutoGPTQ.git && cd AutoGPTQ
git checkout minicpmo
# install AutoGPTQ
pip install -vvv --no-build-isolation -e .将模型初始化部分更改为 AutoGPTQForCausalLM.from_quantized
import torch
from transformers import AutoModel, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM
model = AutoGPTQForCausalLM.from_quantized(
'openbmb/MiniCPM-o-2_6-int4',
torch_dtype=torch.bfloat16,
device="cuda:0",
trust_remote_code=True,
disable_exllama=True,
disable_exllamav2=True
)
tokenizer = AutoTokenizer.from_pretrained(
'openbmb/MiniCPM-o-2_6-int4',
trust_remote_code=True
)
model.init_tts()
使用参考 MiniCPM-o-2_6#usage