
**性能强大且部署高效的多模态大模型**
OmniLMM-3B 🤗 🤖 |
OmniLMM-12B 🤗 🤖
**OmniLMM** 是一系列善于处理图文输入的开源多模态大模型(LMMs)。该系列模型接受图像和文本输入,并提供高质量的文本输出。我们发布了两个版本的 OmniLMM,旨在实现**强大的性能和高效的部署**:
- **OmniLMM-12B**:相比同规模其他模型在多个基准测试中具有领先性能。
- **OmniLMM-3B**:可在终端设备上部署并具备先进的多模态对话能力。
[English Document](./README.md)
## 目录
- [OmniLMM-12B](#omnilmm-12b)
- [OmniLMM-3B](#omnilmm-3b)
- [体验](#demo)
- [安装](#install)
- [推理](#inference)
- [模型库](#model-zoo)
## OmniLMM-12B
**OmniLMM-12B** 是当前系列中性能最强大的版本。该模型使用一个感知重采样层连接 EVA02-5B 和 Zephyr-7B-β 来构建,采用了课程学习的方法在多模态数据上进行训练。该模型具有三个显著特征:
- 🔥 **卓越性能。**
OmniLMM-12B 相比其他同规模模型在多个基准测试中取得**领先的性能**(包括 MME、MMBench、SEED-Bench 等)。该模型还**支持OCR功能**,并掌握了**丰富的多模态世界知识**。
- 🏆 **可信行为。**
LMMs 的幻觉问题备受关注,模型经常生成和图像中的事实不符的文本(例如,信誓旦旦地描述图片中并不存在的物体)。OmniLMM-12B是 **第一个通过多模态 RLHF 对齐的最新开源 LMM 来实现可信行为**(通过我们最近提出的 [RLHF-V](https://rlhf-v.github.io/) 技术)。该模型在 [MMHal-Bench](https://huggingface.co/datasets/Shengcao1006/MMHal-Bench) 幻觉评测基准上位列开源模型中**第一**,并在 [Object HalBench](https://arxiv.org/abs/2312.00849) 中**超过了 GPT-4V**。
- 🕹 **实时多模态交互。**
我们将 OmniLMM-12B 和 GPT-3.5 结合成一个**实时多模态交互助手**。该助手接受来自相机的视频流和来自麦克风的语音流,并发出语音输出。虽然还处于初级阶段,但我们也发现该模型**无需视频编辑**就可以**复现出现在 Gemini 演示视频中的一些有趣例子**。
### 性能评估