可在手机端运行的GPT-4V级别多模态大模型：支持单图、多图与视频理解

MiniCPM-V 4.0

MiniCPM-V 4.0 是MiniCPM-V系列的最新高效模型。该模型基于SigLIP2-400M和MiniCPM4-3B构建，总参数量为41亿。它继承了MiniCPM-V 2.6强大的单图、多图和视频理解能力，并大幅提升了运行效率。MiniCPM-V 4.0的显著特点包括：

🔥 领先的视觉能力 尽管仅拥有41亿参数，MiniCPM-V 4.0在OpenCompass的8项主流基准综合评测中平均得分为69.0，性能超越GPT-4.1-mini-20250414、MiniCPM-V 2.6（81亿参数，OpenCompass得分65.2）和Qwen2.5-VL-3B-Instruct（38亿参数，OpenCompass得分64.5）。同时，它在多图理解和视频理解任务上也表现出色。
🚀 卓越的效率 MiniCPM-V 4.0专为端侧部署设计，可在终端设备上流畅运行。例如，在iPhone 16 Pro Max上，它实现了首token延迟低于2秒，解码速度超过17 token/s，且无发热问题。在并发请求下，其吞吐量也表现优异。
💫 易用性 MiniCPM-V 4.0可通过多种方式轻松使用，包括llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory和本地网页演示等。我们还开源了可在iPhone和iPad上运行的iOS应用。通过结构清晰的Cookbook，您可以轻松上手，其中包含详细的使用说明和实用示例。

评测结果

点击查看OpenCompass单图评测结果

model	Size	Opencompass	OCRBench	MathVista	HallusionBench	MMMU	MMVet	MMBench V1.1	MMStar	AI2D
闭源模型
GPT-4v-20240409	-	63.5	656	55.2	43.9	61.7	67.5	79.8	56.0	78.6
Gemini-1.5-Pro	-	64.5	754	58.3	45.6	60.6	64.0	73.9	59.1	79.1
GPT-4.1-mini-20250414	-	68.9	840	70.9	49.3	55.0	74.3	80.9	60.9	76.0
Claude 3.5 Sonnet-20241022	-	70.6	798	65.3	55.5	66.4	70.1	81.7	65.1	81.2
开源模型
Qwen2.5-VL-3B-Instruct	3.8B	64.5	828	61.2	46.6	51.2	60.0	76.8	56.3	81.4
InternVL2.5-4B	3.7B	65.1	820	60.8	46.6	51.8	61.5	78.2	58.7	81.4
Qwen2.5-VL-7B-Instruct	8.3B	70.9	888	68.1	51.9	58.0	69.7	82.2	64.1	84.3
InternVL2.5-8B	8.1B	68.1	821	64.5	49.0	56.2	62.8	82.5	63.2	84.6
MiniCPM-V-2.6	8.1B	65.2	852	60.8	48.1	49.8	60.0	78.0	57.5	82.1
MiniCPM-o-2.6	8.7B	70.2	889	73.3	51.1	50.9	67.2	80.6	63.3	86.1
MiniCPM-V-4.0	4.1B	69.0	894	66.9	50.8	51.2	68.0	79.7	62.8	82.9

点击查看ChartQA、MME、RealWorldQA、TextVQA、DocVQA、MathVision、DynaMath、WeMath、Object HalBench和MM Halbench单图评测结果

model	Size	ChartQA	MME	RealWorldQA	TextVQA	DocVQA	MathVision	DynaMath	WeMath	Obj Hal		MM Hal
										CHAIRs↓	CHAIRi↓	score avg@3↑	hall rate avg@3↓
闭源模型
GPT-4v-20240409	-	78.5	1927	61.4	78.0	88.4	-	-	-	-	-	-	-
Gemini-1.5-Pro	-	87.2	-	67.5	78.8	93.1	41.0	31.5	50.5	-	-	-	-
GPT-4.1-mini-20250414	-	-	-	-	-	-	45.3	47.7	-	-	-	-	-
Claude 3.5 Sonnet-20241022	-	90.8	-	60.1	74.1	95.2	35.6	35.7	44.0	-	-	-	-
开源模型
Qwen2.5-VL-3B-Instruct	3.8B	84.0	2157	65.4	79.3	93.9	21.9	13.2	22.9	18.3	10.8	3.9	33.3
InternVL2.5-4B	3.7B	84.0	2338	64.3	76.8	91.6	18.4	15.2	21.2	13.7	8.7	3.2	46.5
Qwen2.5-VL-7B-Instruct	8.3B	87.3	2347	68.5	84.9	95.7	25.4	21.8	36.2	13.3	7.9	4.1	31.6
InternVL2.5-8B	8.1B	84.8	2344	70.1	79.1	93.0	17.0	9.4	23.5	18.3	11.6	3.6	37.2
MiniCPM-V-2.6	8.1B	79.4	2348	65.0	80.1	90.8	17.5	9.0	20.4	7.3	4.7	4.0	29.9
MiniCPM-o-2.6	8.7B	86.9	2372	68.1	82.0	93.5	21.7	10.4	25.2	6.3	3.4	4.1	31.3
MiniCPM-V-4.0	4.1B	84.4	2298	68.5	80.8	92.9	20.7	14.2	32.7	6.3	3.5	4.1	29.2

点击查看Mantis、Blink和Video-MME多图与视频理解评测结果

model	Size	Mantis	Blink	Video-MME
				wo subs	w subs
闭源模型
GPT-4v-20240409	-	62.7	54.6	59.9	63.3
Gemini-1.5-Pro	-	-	59.1	75.0	81.3
GPT-4o-20240513	-	-	68.0	71.9	77.2
开源模型
Qwen2.5-VL-3B-Instruct	3.8B	-	47.6	61.5	67.6
InternVL2.5-4B	3.7B	62.7	50.8	62.3	63.6
Qwen2.5-VL-7B-Instruct	8.3B	-	56.4	65.1	71.6
InternVL2.5-8B	8.1B	67.7	54.8	64.2	66.9
MiniCPM-V-2.6	8.1B	69.1	53.0	60.9	63.6
MiniCPM-o-2.6	8.7B	71.9	56.7	63.9	69.6
MiniCPM-V-4.0	4.1B	71.4	54.0	61.2	65.8

示例

可通过iOS demo在iPhone 16 Pro Max上本地运行。

使用方法

from PIL import Image
import torch
from transformers import AutoModel, AutoTokenizer

model_path = 'openbmb/MiniCPM-V-4'
model = AutoModel.from_pretrained(model_path, trust_remote_code=True,
                                  # sdpa or flash_attention_2, no eager
                                  attn_implementation='sdpa', torch_dtype=torch.bfloat16)
model = model.eval().cuda()
tokenizer = AutoTokenizer.from_pretrained(
    model_path, trust_remote_code=True)



image = Image.open('./assets/single.png').convert('RGB')

# First round chat 
question = "What is the landform in the picture?"
msgs = [{'role': 'user', 'content': [image, question]}]

answer = model.chat(
    msgs=msgs,
    image=image,
    tokenizer=tokenizer
)
print(answer)


# Second round chat, pass history context of multi-turn conversation
msgs.append({"role": "assistant", "content": [answer]})
msgs.append({"role": "user", "content": [
            "What should I pay attention to when traveling here?"]})

answer = model.chat(
    msgs=msgs,
    image=None,
    tokenizer=tokenizer
)
print(answer)

许可协议

模型许可

MiniCPM-o/V 模型权重及代码基于 Apache-2.0 许可协议开源。
为帮助我们更好地了解和支持用户，如您方便，恳请您考虑填写一份简短的注册"问卷"，我们将不胜感激。

声明

MiniCPM-V 4.0 作为一个大型多模态模型（LMM），通过学习海量多模态语料生成内容，但它不具备理解能力、无法表达个人观点或进行价值判断。MiniCPM-V 4.0 生成的任何内容均不代表模型开发者的观点和立场。
对于因使用 MiniCPM-V 模型而引发的任何问题，包括但不限于数据安全问题、舆情风险，或因模型的误导、误用、传播或滥用所产生的任何风险和问题，我们不承担责任。

核心技术及其他多模态项目

👏 欢迎探索 MiniCPM-V 2.6 的核心技术以及我们团队的其他多模态项目：

VisCPM | RLHF-V | LLaVA-UHD | RLAIF-V

引用

如果您觉得我们的工作对您有所帮助，请考虑引用我们的论文 📝 并为该项目点赞 ❤️！

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={Nat Commun 16, 5509 (2025)},
  year={2025}
}