低成本扩大输入分辨率！华科大提出Monkey：新的多模态大模型-电子发烧友网

低成本扩大输入分辨率：探秘98亿参数多模态大模型--Monkey眼中的世界

【导读】11月，华中科技大学团队发布了新的多模态大模型——Monkey，通过专注于大分辨率，使得Monkey能够处理分辨率高达1344×896的图像，并加入了有着详细描述的高质量图文数据进行训练，帮助Monkey炼就洞察图像细节的火眼金睛，取得了与Caption和QA任务相关的16个数据集的SOTA，甚至与GPT4V相比，在密集文本问答任务上也有着亮眼的表现。

论文链接：https://arxiv.org/abs/2311.06607

代码地址：https://github.com/Yuliang-Liu/Monkey

官方demo效果展示：

Monkey在密集文本的问答任务上取得了很不错的效果，可以根据问题的要求进行推理，能够适配中文问答

在文本较少的场景中Monkey也展现了不俗的问答能力，自身拥有丰富的知识库，可以根据问题进行外推，从而回答出正确的答案

Monkey在Caption任务上同样取得了出色的结果，不仅仅是对图片进行准确详细的描述，同时能够合理发散，分析出图片所传达的一些抽象含义

以下是Monkey同GPT4V在密集文本与图表上进行问答的可视化结果展示。

下图展示了Monkey的卓越性能，在 18 个不同的数据集上进行测试的结果表明，Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务，并在16个数据集上取得SOTA。

方法介绍:

1. 增大输入分辨率

将原始输入图片裁剪成多个图片块，再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征，训练时仅训练Lora部分，而原始的输入图像则用于提取全局特征，以此方法达到增大输入分辨率的目的。

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤：第一步，使用BLIP2对整张图生成全局描述；第二步用 GRIT生成区域框，并提供区域中对象的名称和详细描述，同时使用PPOCR提取区域的文本框坐标和文本内容；第三步使用SAM进行分割，并送入BLIP2生成对各个物体及其组成部分的详细描述；第四步使用BLIP-2 评估过滤掉低分匹配；最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比，不难看出，两种标注之间存在着较大的差距，生成的详细标注尽可能地包含了图片中的各种细节，而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练，使得Monkey能够更好地把握图文之间的关系。

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果，从中我们能够更加直观地感受到Monkey强大的问答能力，能够准确地把握住问题并给出正确的回答，尤其是在密集文本问答任务上，目前的大模型或多或少都面临着一定的问题，Monkey为解决这一难题提供了一条可行的出路。

总结

Monkey提出了一种训练高效的方法，无需预训练即可有效地提高模型的输入分辨率，最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距，Monkey提出了一种多级特征融合的详细描述生成方法，它可以自动提供丰富的信息，以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用，Monkey练就了一双火眼金睛，在多个基准测试中取得了出色的结果。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

高分辨率

高分辨率

+关注

关注
0

文章
47

浏览量
15389
图像

图像

+关注

关注
2

文章
1091

浏览量
40669
大模型

大模型

+关注

关注
2

文章
2762

浏览量
3413

原文标题：低成本扩大输入分辨率！华科大提出Monkey：新的多模态大模型

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

是否可以在16位或32位图像上推断单映像-超级分辨率1032的模型？

无法确定是单图像超级分辨率 - 1032 模型可以推断为 16 位还是 32 位图像

发表于 03-06 07:16

请问SAR ADC有效分辨率与采样率有关吗？

是不是所有的ADC都是采样率越高、分辨率越差（跳动位数越多）？我的实验： ADS8556是16位SAR ADC，最高采样率500多KhZ。使用20k采样

发表于 01-15 07:57

TVP7002 VGA输入分辨率支持1280 x 1536吗?

TVP7002 VGA 输入分辨率支持1280 x 1536吗? TVP7002 VGA 输入能自动侦察VGA信号所使用的分辨率吗?如可以则读哪些寄存器,有例子吗?

发表于 01-14 07:27

如何提高透镜成像的分辨率

透镜成像分辨率是指透镜系统能够分辨的最小细节的能力。提高透镜成像分辨率对于许多应用领域，如显微镜、望远镜、相机等，都是至关重要的。以下是一些提高透镜成像分辨率的方法： 1. 减少像差

发表于 12-25 16:54 •545次阅读

如何选择扫描电镜的分辨率？

选择扫描电镜的分辨率需要综合考虑多个因素。首先是研究目的。如果只是需要对样品的大致形貌进行观察，例如查看较大颗粒的分布或者材料表面的宏观缺陷，较低分辨率（如3-10nm）可能就足够了。但如果要观察

发表于 12-25 14:29 •324次阅读

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •447次阅读

请问ISO7720的时间分辨率有多少？

），HRPWM的时间分辨率是0.18ns，理论上HRPWM的精度为0.0095%。 2）HRPWM输出通过RC滤波接到ISO7720的输入，R=10Ω，C=22pF。 3）ISO7720输出接功率芯片的驱动

发表于 11-29 08:25

HDMI接口支持哪些视频分辨率

HDMI（High-Definition Multimedia Interface）接口支持的视频分辨率因版本不同而有所差异。以下是HDMI接口不同版本所支持的视频分辨率的概述： HDMI 1.4

发表于 11-27 14:14 •5561次阅读

视频处理器的分辨率是如何管理的

随着电子应用技术和消费市场的不断发展，LED显示屏的显示单元之间的间距正在逐渐缩小，然而，显示屏的整体面积却在不断扩大。为了满足这一趋势下对超大输出分辨率的需求，视频处理器和拼接器变得

发表于 11-11 15:25 •395次阅读

提高SAR ADC的分辨率

电子发烧友网站提供《提高SAR ADC的分辨率.pdf》资料免费下载

发表于 10-25 09:11 •0次下载

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •691次阅读

什么是高分辨率示波器？它有哪些优势？

高分辨率示波器是一种在信息与系统科学相关工程与技术领域中广泛应用的科学仪器，其设计旨在提供更高的信号分辨率和更精细的信号分析能力。以下是对高分辨率示波器的详细解析，包括其定义、优势以及可能涉及的多个方面。

发表于 08-08 11:49 •1315次阅读

VR显示器分辨率的选择

一、VR显示器分辨率的重要性 1.1 分辨率与视觉体验 分辨率是指显示器上能够显示的像素点的数量，通常用水平像素数×垂直像素数来表示。在VR显示器中，分辨率直接影响到用户的视觉体验。高

发表于 07-08 10:29 •1482次阅读

伺服编码器分辨率是什么意思

伺服编码器分辨率是指编码器能够检测到的最小角度或位置变化。在伺服系统中，编码器用于测量电机轴或负载的位置和速度，以实现精确控制。分辨率越高，编码器能够检测到的最小变化越小，从而实现更精确的控制

发表于 06-17 11:16 •1237次阅读

基于CNN的图像超分辨率示例

考虑单个低分辨率图像，首先使用双三次插值将其放大到所需的大小，这是执行的唯一预处理。将插值图像表示为Y。我们的目标是从Y中恢复与真实高分辨率图像X尽可能相似的图像F (Y) 。

发表于 03-11 11:40 •825次阅读

搜索历史

低成本扩大输入分辨率！华科大提出Monkey：新的多模态大模型

评论