
**性能强大且部署高效的多模态大模型**
OmniLMM-3B 🤗 🤖 |
OmniLMM-12B 🤗 🤖
**OmniLMM** 是一系列善于处理图文输入的开源多模态大模型(LMMs)。该系列模型接受图像和文本输入,并提供高质量的文本输出。我们发布了两个版本的 OmniLMM,旨在实现**强大的性能和高效的部署**:
- **OmniLMM-12B**:相比同规模其他模型在多个基准测试中具有领先性能。
- **OmniLMM-3B**:可在终端设备上部署并具备先进的多模态对话能力。
[English Document](./README.md)
## 目录
- [目录](#目录)
- [OmniLMM-12B](#omnilmm-12b)
- [性能评估](#性能评估)
- [样例展示](#样例展示)
- [OmniLMM-3B](#omnilmm-3b)
- [性能评估](#性能评估-1)
- [样例展示](#样例展示-1)
- [体验](#体验)
- [安装](#安装)
- [推理](#推理)
- [模型库](#模型库)
- [多轮对话](#多轮对话)
- [✅ 未来计划](#-未来计划)
- [模型协议](#模型协议)
- [声明](#声明)
- [🏫 机构](#-机构)
## OmniLMM-12B
**OmniLMM-12B** 是当前系列中性能最强大的版本。该模型使用一个感知重采样层连接 EVA02-5B 和 Zephyr-7B-β 来构建,采用了课程学习的方法在多模态数据上进行训练。该模型具有三个显著特征:
- 🔥 **卓越性能。**
OmniLMM-12B 相比其他同规模模型在多个基准测试中取得**领先的性能**(包括 MME、MMBench、SEED-Bench 等)。模型掌握了丰富的多模态世界知识。
- 🏆 **可信行为。**
LMMs 的幻觉问题备受关注,模型经常生成和图像中的事实不符的文本(例如,确信地描述图片中并不存在的物体)。OmniLMM-12B是 **第一个通过多模态 RLHF 对齐的综合能力优秀的开源多模态大模型**(通过我们最近提出的 [RLHF-V](https://rlhf-v.github.io/) 技术)。该模型在 [MMHal-Bench](https://huggingface.co/datasets/Shengcao1006/MMHal-Bench) 幻觉评测基准上位列开源模型中**第一**,并在 [Object HalBench](https://arxiv.org/abs/2312.00849) 中**超过了 GPT-4V**。
- 🕹 **实时多模态交互。**
我们将 OmniLMM-12B 和 GPT-3.5 结合成一个**实时多模态交互助手**。该助手接受来自相机的视频流和来自麦克风的语音流,并发出语音输出。虽然还处于初级阶段,但我们也发现该模型**无需视频编辑**就可以**复现出现在 Gemini 演示视频中的一些有趣例子**。
### 性能评估