这个开源的多模态模型无敌。。InternVL

软件素材2年前 (2024)发布 admin

1,439 0 6

InternVL 由 OpenGVLab 开发，是一个开源的多模态对话模型，其性能接近商业化的 GPT-4V 模型。

GPT-4V 是 OpenAI 去年推出的多模态模型，使用它你可以分析所需的任何类型的图像并获取有关该图像的信息。

1. InternVL 开源模型

而今天的主角研究成果 InternVL 发布在 CVPR 2024 上，并提供了多种模型版本以适应不同的应用场景，如 InternVL−Chat−V1.5 支持 4K 图像和强大的光学字符识别（OCR）功能。

开源地址：https://github.com/OpenGVLab/InternVL

2. 支持特性

InternVL 家族通过提供多种模型版本，支持从图像分类到多模态对话的多种功能。以下是一些关键特性：

多语言支持：InternVL 能够支持超过 110 种语言的生成。

高性能：在多个基准测试中，InternVL-Chat-V1.5 接近 GPT-4V 和 Gemini Pro 的性能。

多种模型选择：提供了不同参数规模的模型，从 6B 到 19B 不等，以适应不同的计算资源和应用需求。

跨模态检索：支持英文和中文的零样本图像-文本检索，以及多语言零样本图像-文本检索。

以下是 InternVL 在不同任务上的性能对比图：

这个开源的多模态模型无敌。。InternVL

3. 效果怎么样？

我把上图给到开源模型，让他自己介绍一下图片中的内容：

这个开源的多模态模型无敌。。InternVL

文章版权归作者所有，未经允许请勿转载。

admin

1,721 2

admin

1,269 2

admin

3,255 7

admin

1,340 3

admin

2,092 2

admin

1,455 8