Files
MiniCPM-o/docs/minicpm_v4_zh.md
YuzaChongyi 06e220c8f4 add minicpm-v-4.5 (#963)
Co-authored-by: wangchongyi <>
2025-08-26 05:20:58 +08:00

16 KiB
Raw Permalink Blame History

MiniCPM-V 4.0

Archieve at: 2025-08-25

MiniCPM-V 4.0 是 MiniCPM-V 系列中的最新模型。该模型基于 SigLIP2-400M 和 MiniCPM4-3B 构建,参数总量为 4.1B。它延续了 MiniCPM-V 2.6 在单图、多图和视频理解方面的强大能力同时大幅提升了推理效率。MiniCPM-V 4.0 的主要特点包括:

  • 🔥 领先的视觉能力。 MiniCPM-V 4.0 在 OpenCompass 上获得了平均 69.0 的高分,超越了 MiniCPM-V 2.68.1B,得分 65.2)、 Qwen2.5-VL-3B-Instruct3.8B,得分 64.5)和广泛使用的闭源模型 GPT-4.1-mini-20250414。在多图理解与视频理解任务上MiniCPM-V 4.0 也表现出色。

  • 🚀 卓越的效率。 MiniCPM-V 4.0 专为端侧设备优化,可在 iPhone 16 Pro Max 上流畅运行,首 token 延迟低至 2 秒,解码速度达 17.9 tokens/s且无发热问题。MiniCPM-V 4.0 在并发请求场景下表现出领先的吞吐率指标。

  • 💫 易于使用。 MiniCPM-V 4.0 支持多种推理方式,包括 llama.cpp、Ollama、vLLM、SGLang、LLaMA-Factory 及本地 Web Demo 等。我们还开源了可以在 iPhone 和 iPad 运行的 iOS App。欢迎参考我们开源的 结构清晰的使用手册 玩转 MiniCPM-V 4.0,其中涵盖了详细的部署指南和真实示例。

性能评估

点击查看在OpenCompass上的单图理解能力的评测结果。
model Size Opencompass OCRBench MathVista HallusionBench MMMU MMVet MMBench V1.1 MMStar AI2D
Proprietary
GPT-4v-20240409 - 63.5 656 55.2 43.9 61.7 67.5 79.8 56.0 78.6
Gemini-1.5-Pro - 64.5 754 58.3 45.6 60.6 64.0 73.9 59.1 79.1
GPT-4.1-mini-20250414 - 68.9 840 70.9 49.3 55.0 74.3 80.9 60.9 76.0
Claude 3.5 Sonnet-20241022 - 70.6 798 65.3 55.5 66.4 70.1 81.7 65.1 81.2
Open-source
Qwen2.5-VL-3B-Instruct 3.8B 64.5 828 61.2 46.6 51.2 60.0 76.8 56.3 81.4
InternVL2.5-4B 3.7B 65.1 820 60.8 46.6 51.8 61.5 78.2 58.7 81.4
Qwen2.5-VL-7B-Instruct 8.3B 70.9 888 68.1 51.9 58.0 69.7 82.2 64.1 84.3
InternVL2.5-8B 8.1B 68.1 821 64.5 49.0 56.2 62.8 82.5 63.2 84.6
MiniCPM-V-2.6 8.1B 65.2 852 60.8 48.1 49.8 60.0 78.0 57.5 82.1
MiniCPM-o-2.6 8.7B 70.2 889 73.3 51.1 50.9 67.2 80.6 63.3 86.1
MiniCPM-V-4.0 4.1B 69.0 894 66.9 50.8 51.2 68.0 79.7 62.8 82.9
点击查看在图表理解、文档理解、数学推理、幻觉等领域的评测结果。
model Size ChartQA MME RealWorldQA TextVQA DocVQA MathVision DynaMath WeMath Obj Hal MM Hal
CHAIRs↓ CHAIRi↓ score avg@3↑ hall rate avg@3↓
Proprietary
GPT-4v-20240409 - 78.5 1927 61.4 78.0 88.4 - - - - - - -
Gemini-1.5-Pro - 87.2 - 67.5 78.8 93.1 41.0 31.5 50.5 - - - -
GPT-4.1-mini-20250414 - - - - - - 45.3 47.7 - - - - -
Claude 3.5 Sonnet-20241022 - 90.8 - 60.1 74.1 95.2 35.6 35.7 44.0 - - - -
Open-source
Qwen2.5-VL-3B-Instruct 3.8B 84.0 2157 65.4 79.3 93.9 21.9 13.2 22.9 18.3 10.8 3.9 33.3
InternVL2.5-4B 3.7B 84.0 2338 64.3 76.8 91.6 18.4 15.2 21.2 13.7 8.7 3.2 46.5
Qwen2.5-VL-7B-Instruct 8.3B 87.3 2347 68.5 84.9 95.7 25.4 21.8 36.2 13.3 7.9 4.1 31.6
InternVL2.5-8B 8.1B 84.8 2344 70.1 79.1 93.0 17.0 9.4 23.5 18.3 11.6 3.6 37.2
MiniCPM-V-2.6 8.1B 79.4 2348 65.0 80.1 90.8 17.5 9.0 20.4 7.3 4.7 4.0 29.9
MiniCPM-o-2.6 8.7B 86.9 2372 68.1 82.0 93.5 21.7 10.4 25.2 6.3 3.4 4.1 31.3
MiniCPM-V-4.0 4.1B 84.4 2298 68.5 80.8 92.9 20.7 14.2 32.7 6.3 3.5 4.1 29.2
点击查看多图和视频理解能力的评测结果。
model Size Mantis Blink Video-MME
wo subs w subs
Proprietary
GPT-4v-20240409 - 62.7 54.6 59.9 63.3
Gemini-1.5-Pro - - 59.1 75.0 81.3
GPT-4o-20240513 - - 68.0 71.9 77.2
Open-source
Qwen2.5-VL-3B-Instruct 3.8B - 47.6 61.5 67.6
InternVL2.5-4B 3.7B 62.7 50.8 62.3 63.6
Qwen2.5-VL-7B-Instruct 8.3B - 56.4 65.1 71.6
InternVL2.5-8B 8.1B 67.7 54.8 64.2 66.9
MiniCPM-V-2.6 8.1B 69.1 53.0 60.9 63.6
MiniCPM-o-2.6 8.7B 71.9 56.7 63.9 69.6
MiniCPM-V-4.0 4.1B 71.4 54.0 61.2 65.8

典型示例

math

我们在 iPhone 16 Pro Max 上部署了 MiniCPM-V 4.0 iOS demo,并录制了以下演示录屏,视频未经加速等任何编辑: