一款可在手机上实现视觉、语音及多模态直播的GPT-4o级别多模态大语言模型

MiniCPM-o 2.6 int4

这是 MiniCPM-o 2.6 的 int4 量化版本。
运行 int4 版本将占用更少的 GPU 内存（约 9GB）。

准备代码并安装 AutoGPTQ

我们正在提交 PR，以正式支持 MiniCPM-o 2.6 的推理功能

git clone https://github.com/RanchiZhao/AutoGPTQ.git && cd AutoGPTQ
git checkout minicpmo

# install AutoGPTQ
pip install -vvv --no-build-isolation -e .

MiniCPM-o-2_6-int4 的使用方法

将模型初始化部分更改为 AutoGPTQForCausalLM.from_quantized

import torch
from transformers import AutoModel, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM

model = AutoGPTQForCausalLM.from_quantized(
    'openbmb/MiniCPM-o-2_6-int4',
    torch_dtype=torch.bfloat16,
    device="cuda:0",
    trust_remote_code=True,
    disable_exllama=True,
    disable_exllamav2=True
)
tokenizer = AutoTokenizer.from_pretrained(
    'openbmb/MiniCPM-o-2_6-int4',
    trust_remote_code=True
)

model.init_tts()

使用参考 MiniCPM-o-2_6#usage

一款可在手机上实现视觉、语音及多模态直播的GPT-4o级别多模态大语言模型

MiniCPM-o 2.6 int4

这是 MiniCPM-o 2.6 的 int4 量化版本。
运行 int4 版本将占用更少的 GPU 内存（约 9GB）。

准备代码并安装 AutoGPTQ

我们正在提交 PR，以正式支持 MiniCPM-o 2.6 的推理功能

git clone https://github.com/RanchiZhao/AutoGPTQ.git && cd AutoGPTQ
git checkout minicpmo

# install AutoGPTQ
pip install -vvv --no-build-isolation -e .

MiniCPM-o-2_6-int4 的使用方法

将模型初始化部分更改为 AutoGPTQForCausalLM.from_quantized

import torch
from transformers import AutoModel, AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM

model = AutoGPTQForCausalLM.from_quantized(
    'openbmb/MiniCPM-o-2_6-int4',
    torch_dtype=torch.bfloat16,
    device="cuda:0",
    trust_remote_code=True,
    disable_exllama=True,
    disable_exllamav2=True
)
tokenizer = AutoTokenizer.from_pretrained(
    'openbmb/MiniCPM-o-2_6-int4',
    trust_remote_code=True
)

model.init_tts()