Yi 视觉语言模型

更出色的双语多模态模型

👩‍🚀 欢迎在 GitHub 提问或交流想法！

👋 加入我们 💬 微信交流群（中文）！

📚 在 Yi 学习中心共同成长！

📕 目录

什么是 Yi-VL？
- 概述
- 模型
- 特点
- 架构
- 训练
- 局限性
为什么选择 Yi-VL？
如何使用 Yi-VL？
- 快速开始
- 硬件要求
其他
- 致谢与引用
  - 使用的开源项目列表
- 许可证

What is Yi-VL?

Overview

Yi 视觉语言（Yi-VL）模型是 Yi 大语言模型（LLM） 系列的开源多模态版本，能够对图像进行内容理解、识别以及多轮对话。
Yi-VL 展现出卓越性能，在最新的基准测试中，包括英文的 MMMU 和中文的 CMMMU，均位列所有现有开源模型之首（基于 2024 年 1 月可获取的数据）。
Yi-VL-34B 是全球首个开源的 340 亿参数视觉语言模型。

模型

Yi-VL 已发布以下版本。

模型	下载地址
Yi-VL-34B	• 🟣 wisemodel
Yi-VL-6B	• 🟣 wisemodel

功能特点

Yi-VL 具备以下功能特点：

多轮图文对话：Yi-VL 能够同时接收文本和图像作为输入，并生成文本输出。目前，它支持针对单张图像的多轮视觉问答。
双语文本支持：Yi-VL 支持中英文双语对话，包括图像中的文本识别。
强大的图像理解能力：Yi-VL 擅长图像分析，是从图像中提取、整理和总结信息等任务的高效工具。
精细的图像分辨率：Yi-VL 支持 448×448 较高分辨率的图像理解。

架构

Yi-VL 采用 LLaVA 架构，主要由三个部分组成：

视觉Transformer（ViT）：使用 [CLIP ViT-H/14 模型] 进行初始化，用于图像编码。
投影模块：旨在将图像特征与文本特征空间对齐，由带层归一化的两层多层感知器（MLP）构成。
大型语言模型（LLM）：使用 [Yi-34B-Chat] 或 [Yi-6B-Chat] 进行初始化，在中英文理解和生成方面表现出卓越的能力。

训练

训练资源消耗

训练使用了 128 块 NVIDIA A800（80G）GPU。
Yi-VL-34B 的总训练时间约为 10 天，Yi-VL-6B 约为 3 天。

局限性

这是 Yi-VL 的初始版本，存在一些已知的局限性。建议在采用任何模型之前，仔细评估潜在风险。

功能限制
- 支持视觉问答。尚不支持文本转 3D、图像转视频等其他功能。
- 仅能接受单张图像作为输入，而非多张图像。
幻觉问题
- 存在生成图像中不存在内容的一定可能性。
- 在包含多个物体的场景中，部分物体可能被错误识别或描述不够详细。
分辨率问题
- Yi-VL 在 448×448 分辨率的图像上进行训练。推理时，任何分辨率的输入都会被调整为 448×448。低分辨率图像可能导致信息丢失，而更高分辨率（超过 448）的图像也不会带来额外信息。
Yi LLM 的其他局限性。

为何选择 Yi-VL？

技术报告

有关 Yi 系列模型的详细性能，请参阅 Yi: Open Foundation Models by 01.AI。

引用格式

@misc{ai2024yi,
    title={Yi: Open Foundation Models by 01.AI},
    author={01. AI and : and Alex Young and Bei Chen and Chao Li and Chengen Huang and Ge Zhang and Guanwei Zhang and Heng Li and Jiangcheng Zhu and Jianqun Chen and Jing Chang and Kaidong Yu and Peng Liu and Qiang Liu and Shawn Yue and Senbin Yang and Shiming Yang and Tao Yu and Wen Xie and Wenhao Huang and Xiaohui Hu and Xiaoyi Ren and Xinyao Niu and Pengcheng Nie and Yuchi Xu and Yudong Liu and Yue Wang and Yuxuan Cai and Zhenyu Gu and Zhiyuan Liu and Zonghong Dai},
    year={2024},
    eprint={2403.04652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

如何使用 Yi-VL？

快速开始

详情请参考 Yi GitHub 仓库。

硬件要求

对于模型推理，推荐的 GPU 示例如下：

Yi-VL-6B：RTX 3090、RTX 4090、A10、A30
Yi-VL-34B：4 × RTX 4090、A800（80 GB）

其他

致谢与归属

本项目使用了开源软件/组件。我们对这些开发者为开源社区所做的贡献表示感谢。

使用的开源项目列表

LLaVA

作者：Haotian Liu、Chunyuan Li、Qingyang Wu、Yuheng Li 和 Yong Jae Lee
- 来源：https://github.com/haotian-liu/LLaVA
- 许可证：Apache-2.0 许可证
- 说明：代码库基于 LLaVA 代码。

注意事项

本归属声明并非涵盖所有使用的开源组件。请查看各个组件及其相应的许可证以获取完整详情。
开源组件的使用受各自许可证条款和条件的约束。

我们感谢开源社区为技术领域做出的宝贵贡献。

许可证

源代码的许可证请参考致谢与归属以及各个组件。

Yi 系列模型完全开放用于学术研究，并且可免费用于商业用途，申请后将自动获得使用权限。

所有使用必须遵守 Apache 2.0 许可证。

对于免费商业使用，您只需发送电子邮件即可获得官方商业许可。