mirror of
https://github.com/OpenBMB/MiniCPM-V.git
synced 2026-02-04 09:49:20 +08:00
update readme
This commit is contained in:
@@ -192,15 +192,15 @@
|
||||
|
||||
- ⚡️ **高效率。**
|
||||
|
||||
OmniLMM-3B 可以**高效地部署在大多数GPU卡和个人电脑上**,甚至**在移动手机等终端设备上**。在视觉编码方面,我们通过感知器重采样器将图像表示压缩为 64 个 token,远远少于基于 MLP 架构的其他 LMMs(通常大于 512 个 token)。这使得 OmniLMM-3B 在推理期间**内存成本更低且速度更快**。
|
||||
OmniLMM-3B 可以**高效地部署在大多数 GPU 和个人电脑上**,甚至**是移动手机等终端设备**。在视觉编码方面,我们通过感知器重采样器将图像表示压缩为 64 个 token,远远少于基于 MLP 架构的其他 LMMs(通常大于 512 个 token)。这使得 OmniLMM-3B 在推理期间**内存成本更低且速度更快**。
|
||||
|
||||
- 🔥 **优秀的性能。**
|
||||
|
||||
OmniLMM-3B 在与相似大小模型相比的多个基准测试中实现了**最先进的性能**,超过了基于 Phi-2构建的现有 LMMs。它甚至**实现了与9.6B Qwen-VL-Chat 相媲美或更好的性能**。
|
||||
OmniLMM-3B 在多个基准测试中实现了与相似大小模型相比**最先进的性能**,超过了基于 Phi-2 构建的LMMs。它甚至**实现了与9.6B Qwen-VL-Chat 相媲美或更好的性能**。
|
||||
|
||||
- 🙌 **双语支持。**
|
||||
|
||||
OmniLMM-3B 是**第一个支持英语和中文双语多模态交互的终端可部署 LMM**。这是通过跨语言泛化多模态能力实现的,这是我们 ICLR 2024 [spotlight 论文](https://arxiv.org/abs/2308.12038)中的一项技术。
|
||||
借助于我们在 ICLR 2024 [spotlight 论文](https://arxiv.org/abs/2308.12038) 中提出的跨语言多模态能力泛化技术, OmniLMM-3B 是**第一个支持英语和中文双语多模态交互的终端可部署 LMM**。
|
||||
|
||||
### 性能评估
|
||||
|
||||
|
||||
Reference in New Issue
Block a user