MiniCPM-o/minicpm_v4_zh.md at main

mirror of https://github.com/OpenBMB/MiniCPM-V.git synced 2026-02-04 09:49:20 +08:00

Files

YuzaChongyi 06e220c8f4 add minicpm-v-4.5 (#963 )

Co-authored-by: wangchongyi <>

2025-08-26 05:20:58 +08:00

16 KiB

Raw Permalink Blame History

MiniCPM-V 4.0

Archieve at: 2025-08-25

MiniCPM-V 4.0 是 MiniCPM-V 系列中的最新模型。该模型基于 SigLIP2-400M 和 MiniCPM4-3B 构建，参数总量为 4.1B。它延续了 MiniCPM-V 2.6 在单图、多图和视频理解方面的强大能力，同时大幅提升了推理效率。MiniCPM-V 4.0 的主要特点包括：

🔥 领先的视觉能力。 MiniCPM-V 4.0 在 OpenCompass 上获得了平均 69.0 的高分，超越了 MiniCPM-V 2.6（8.1B，得分 65.2）、 Qwen2.5-VL-3B-Instruct（3.8B，得分 64.5）和广泛使用的闭源模型 GPT-4.1-mini-20250414。在多图理解与视频理解任务上，MiniCPM-V 4.0 也表现出色。
🚀 卓越的效率。 MiniCPM-V 4.0 专为端侧设备优化，可在 iPhone 16 Pro Max 上流畅运行，首 token 延迟低至 2 秒，解码速度达 17.9 tokens/s，且无发热问题。MiniCPM-V 4.0 在并发请求场景下表现出领先的吞吐率指标。
💫 易于使用。 MiniCPM-V 4.0 支持多种推理方式，包括 llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory 及本地 Web Demo 等。我们还开源了可以在 iPhone 和 iPad 运行的 iOS App。欢迎参考我们开源的 结构清晰的使用手册 玩转 MiniCPM-V 4.0，其中涵盖了详细的部署指南和真实示例。

性能评估

点击查看在OpenCompass上的单图理解能力的评测结果。

model	Size	Opencompass	OCRBench	MathVista	HallusionBench	MMMU	MMVet	MMBench V1.1	MMStar	AI2D
Proprietary
GPT-4v-20240409	-	63.5	656	55.2	43.9	61.7	67.5	79.8	56.0	78.6
Gemini-1.5-Pro	-	64.5	754	58.3	45.6	60.6	64.0	73.9	59.1	79.1
GPT-4.1-mini-20250414	-	68.9	840	70.9	49.3	55.0	74.3	80.9	60.9	76.0
Claude 3.5 Sonnet-20241022	-	70.6	798	65.3	55.5	66.4	70.1	81.7	65.1	81.2
Open-source
Qwen2.5-VL-3B-Instruct	3.8B	64.5	828	61.2	46.6	51.2	60.0	76.8	56.3	81.4
InternVL2.5-4B	3.7B	65.1	820	60.8	46.6	51.8	61.5	78.2	58.7	81.4
Qwen2.5-VL-7B-Instruct	8.3B	70.9	888	68.1	51.9	58.0	69.7	82.2	64.1	84.3
InternVL2.5-8B	8.1B	68.1	821	64.5	49.0	56.2	62.8	82.5	63.2	84.6
MiniCPM-V-2.6	8.1B	65.2	852	60.8	48.1	49.8	60.0	78.0	57.5	82.1
MiniCPM-o-2.6	8.7B	70.2	889	73.3	51.1	50.9	67.2	80.6	63.3	86.1
MiniCPM-V-4.0	4.1B	69.0	894	66.9	50.8	51.2	68.0	79.7	62.8	82.9

点击查看在图表理解、文档理解、数学推理、幻觉等领域的评测结果。

model	Size	ChartQA	MME	RealWorldQA	TextVQA	DocVQA	MathVision	DynaMath	WeMath	Obj Hal		MM Hal
										CHAIRs↓	CHAIRi↓	score avg@3↑	hall rate avg@3↓
Proprietary
GPT-4v-20240409	-	78.5	1927	61.4	78.0	88.4	-	-	-	-	-	-	-
Gemini-1.5-Pro	-	87.2	-	67.5	78.8	93.1	41.0	31.5	50.5	-	-	-	-
GPT-4.1-mini-20250414	-	-	-	-	-	-	45.3	47.7	-	-	-	-	-
Claude 3.5 Sonnet-20241022	-	90.8	-	60.1	74.1	95.2	35.6	35.7	44.0	-	-	-	-
Open-source
Qwen2.5-VL-3B-Instruct	3.8B	84.0	2157	65.4	79.3	93.9	21.9	13.2	22.9	18.3	10.8	3.9	33.3
InternVL2.5-4B	3.7B	84.0	2338	64.3	76.8	91.6	18.4	15.2	21.2	13.7	8.7	3.2	46.5
Qwen2.5-VL-7B-Instruct	8.3B	87.3	2347	68.5	84.9	95.7	25.4	21.8	36.2	13.3	7.9	4.1	31.6
InternVL2.5-8B	8.1B	84.8	2344	70.1	79.1	93.0	17.0	9.4	23.5	18.3	11.6	3.6	37.2
MiniCPM-V-2.6	8.1B	79.4	2348	65.0	80.1	90.8	17.5	9.0	20.4	7.3	4.7	4.0	29.9
MiniCPM-o-2.6	8.7B	86.9	2372	68.1	82.0	93.5	21.7	10.4	25.2	6.3	3.4	4.1	31.3
MiniCPM-V-4.0	4.1B	84.4	2298	68.5	80.8	92.9	20.7	14.2	32.7	6.3	3.5	4.1	29.2

点击查看多图和视频理解能力的评测结果。

model	Size	Mantis	Blink	Video-MME
				wo subs	w subs
Proprietary
GPT-4v-20240409	-	62.7	54.6	59.9	63.3
Gemini-1.5-Pro	-	-	59.1	75.0	81.3
GPT-4o-20240513	-	-	68.0	71.9	77.2
Open-source
Qwen2.5-VL-3B-Instruct	3.8B	-	47.6	61.5	67.6
InternVL2.5-4B	3.7B	62.7	50.8	62.3	63.6
Qwen2.5-VL-7B-Instruct	8.3B	-	56.4	65.1	71.6
InternVL2.5-8B	8.1B	67.7	54.8	64.2	66.9
MiniCPM-V-2.6	8.1B	69.1	53.0	60.9	63.6
MiniCPM-o-2.6	8.7B	71.9	56.7	63.9	69.6
MiniCPM-V-4.0	4.1B	71.4	54.0	61.2	65.8

典型示例

我们在 iPhone 16 Pro Max 上部署了 MiniCPM-V 4.0 iOS demo，并录制了以下演示录屏，视频未经加速等任何编辑：

16 KiB Raw Permalink Blame History Unescape Escape

MiniCPM-V 4.0

性能评估

典型示例

16 KiB

Raw Permalink Blame History