## MiniCPM-V 4.0
> Archieve at: 2025-08-25
MiniCPM-V 4.0 是 MiniCPM-V 系列中的最新模型。该模型基于 SigLIP2-400M 和 MiniCPM4-3B 构建,参数总量为 4.1B。它延续了 MiniCPM-V 2.6 在单图、多图和视频理解方面的强大能力,同时大幅提升了推理效率。MiniCPM-V 4.0 的主要特点包括:
- 🔥 **领先的视觉能力。**
MiniCPM-V 4.0 在 OpenCompass 上获得了平均 69.0 的高分,超越了 MiniCPM-V 2.6(8.1B,得分 65.2)、 Qwen2.5-VL-3B-Instruct(3.8B,得分 64.5)和**广泛使用的闭源模型 GPT-4.1-mini-20250414**。在多图理解与视频理解任务上,MiniCPM-V 4.0 也表现出色。
- 🚀 **卓越的效率。**
MiniCPM-V 4.0 专为端侧设备优化,**可在 iPhone 16 Pro Max 上流畅运行,首 token 延迟低至 2 秒,解码速度达 17.9 tokens/s**,且无发热问题。MiniCPM-V 4.0 在并发请求场景下表现出领先的吞吐率指标。
- 💫 **易于使用。**
MiniCPM-V 4.0 支持多种推理方式,包括 **llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory 及本地 Web Demo 等**。我们还开源了可以在 iPhone 和 iPad 运行的 iOS App。欢迎参考我们开源的 **结构清晰的[使用手册](https://github.com/OpenSQZ/MiniCPM-V-CookBook)** 玩转 MiniCPM-V 4.0,其中涵盖了详细的部署指南和真实示例。
### 性能评估
点击查看在OpenCompass上的单图理解能力的评测结果。
model
Size
Opencompass
OCRBench
MathVista
HallusionBench
MMMU
MMVet
MMBench V1.1
MMStar
AI2D
Proprietary
GPT-4v-20240409
-
63.5
656
55.2
43.9
61.7
67.5
79.8
56.0
78.6
Gemini-1.5-Pro
-
64.5
754
58.3
45.6
60.6
64.0
73.9
59.1
79.1
GPT-4.1-mini-20250414
-
68.9
840
70.9
49.3
55.0
74.3
80.9
60.9
76.0
Claude 3.5 Sonnet-20241022
-
70.6
798
65.3
55.5
66.4
70.1
81.7
65.1
81.2
Open-source
Qwen2.5-VL-3B-Instruct
3.8B
64.5
828
61.2
46.6
51.2
60.0
76.8
56.3
81.4
InternVL2.5-4B
3.7B
65.1
820
60.8
46.6
51.8
61.5
78.2
58.7
81.4
Qwen2.5-VL-7B-Instruct
8.3B
70.9
888
68.1
51.9
58.0
69.7
82.2
64.1
84.3
InternVL2.5-8B
8.1B
68.1
821
64.5
49.0
56.2
62.8
82.5
63.2
84.6
MiniCPM-V-2.6
8.1B
65.2
852
60.8
48.1
49.8
60.0
78.0
57.5
82.1
MiniCPM-o-2.6
8.7B
70.2
889
73.3
51.1
50.9
67.2
80.6
63.3
86.1
MiniCPM-V-4.0
4.1B
69.0
894
66.9
50.8
51.2
68.0
79.7
62.8
82.9
点击查看在图表理解、文档理解、数学推理、幻觉等领域的评测结果。
model
Size
ChartQA
MME
RealWorldQA
TextVQA
DocVQA
MathVision
DynaMath
WeMath
Obj Hal
MM Hal
CHAIRs↓
CHAIRi↓
score avg@3↑
hall rate avg@3↓
Proprietary
GPT-4v-20240409
-
78.5
1927
61.4
78.0
88.4
-
-
-
-
-
-
-
Gemini-1.5-Pro
-
87.2
-
67.5
78.8
93.1
41.0
31.5
50.5
-
-
-
-
GPT-4.1-mini-20250414
-
-
-
-
-
-
45.3
47.7
-
-
-
-
-
Claude 3.5 Sonnet-20241022
-
90.8
-
60.1
74.1
95.2
35.6
35.7
44.0
-
-
-
-
Open-source
Qwen2.5-VL-3B-Instruct
3.8B
84.0
2157
65.4
79.3
93.9
21.9
13.2
22.9
18.3
10.8
3.9
33.3
InternVL2.5-4B
3.7B
84.0
2338
64.3
76.8
91.6
18.4
15.2
21.2
13.7
8.7
3.2
46.5
Qwen2.5-VL-7B-Instruct
8.3B
87.3
2347
68.5
84.9
95.7
25.4
21.8
36.2
13.3
7.9
4.1
31.6
InternVL2.5-8B
8.1B
84.8
2344
70.1
79.1
93.0
17.0
9.4
23.5
18.3
11.6
3.6
37.2
MiniCPM-V-2.6
8.1B
79.4
2348
65.0
80.1
90.8
17.5
9.0
20.4
7.3
4.7
4.0
29.9
MiniCPM-o-2.6
8.7B
86.9
2372
68.1
82.0
93.5
21.7
10.4
25.2
6.3
3.4
4.1
31.3
MiniCPM-V-4.0
4.1B
84.4
2298
68.5
80.8
92.9
20.7
14.2
32.7
6.3
3.5
4.1
29.2
点击查看多图和视频理解能力的评测结果。
model
Size
Mantis
Blink
Video-MME
wo subs
w subs
Proprietary
GPT-4v-20240409
-
62.7
54.6
59.9
63.3
Gemini-1.5-Pro
-
-
59.1
75.0
81.3
GPT-4o-20240513
-
-
68.0
71.9
77.2
Open-source
Qwen2.5-VL-3B-Instruct
3.8B
-
47.6
61.5
67.6
InternVL2.5-4B
3.7B
62.7
50.8
62.3
63.6
Qwen2.5-VL-7B-Instruct
8.3B
-
56.4
65.1
71.6
InternVL2.5-8B
8.1B
67.7
54.8
64.2
66.9
MiniCPM-V-2.6
8.1B
69.1
53.0
60.9
63.6
MiniCPM-o-2.6
8.7B
71.9
56.7
63.9
69.6
MiniCPM-V-4.0
4.1B
71.4
54.0
61.2
65.8