0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

CVer 来源:CVer 2023-12-04 15:33 次阅读

低成本扩大输入分辨率:探秘98亿参数多模态大模型--Monkey眼中的世界

【导读】11月,华中科技大学团队发布了新的多模态大模型——Monkey,通过专注于大分辨率,使得Monkey能够处理分辨率高达1344×896的图像,并加入了有着详细描述的高质量图文数据进行训练,帮助Monkey炼就洞察图像细节的火眼金睛,取得了与Caption和QA任务相关的16个数据集的SOTA,甚至与GPT4V相比,在密集文本问答任务上也有着亮眼的表现。

论文链接:https://arxiv.org/abs/2311.06607

代码地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的问答任务上取得了很不错的效果,可以根据问题的要求进行推理,能够适配中文问答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本较少的场景中Monkey也展现了不俗的问答能力,自身拥有丰富的知识库,可以根据问题进行外推,从而回答出正确的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任务上同样取得了出色的结果,不仅仅是对图片进行准确详细的描述,同时能够合理发散,分析出图片所传达的一些抽象含义

以下是Monkey同GPT4V在密集文本与图表上进行问答的可视化结果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务,并在16个数据集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介绍:

1. 增大输入分辨率

将原始输入图片裁剪成多个图片块,再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征,训练时仅训练Lora部分,而原始的输入图像则用于提取全局特征,以此方法达到增大输入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤:第一步,使用BLIP2对整张图生成全局描述;第二步用 GRIT生成区域框,并提供区域中对象的名称和详细描述,同时使用PPOCR提取区域的文本框坐标和文本内容;第三步使用SAM进行分割,并送入BLIP2生成对各个物体及其组成部分的详细描述;第四步使用BLIP-2 评估过滤掉低分匹配;最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比,不难看出,两种标注之间存在着较大的差距,生成的详细标注尽可能地包含了图片中的各种细节,而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练,使得Monkey能够更好地把握图文之间的关系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果,从中我们能够更加直观地感受到Monkey强大的问答能力,能够准确地把握住问题并给出正确的回答,尤其是在密集文本问答任务上,目前的大模型或多或少都面临着一定的问题,Monkey为解决这一难题提供了一条可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

总结

Monkey提出了一种训练高效的方法,无需预训练即可有效地提高模型的输入分辨率,最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距,Monkey提出了一种多级特征融合的详细描述生成方法,它可以自动提供丰富的信息,以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用,Monkey练就了一双火眼金睛,在多个基准测试中取得了出色的结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高分辨率
    +关注

    关注

    0

    文章

    45

    浏览量

    15321
  • 图像
    +关注

    关注

    2

    文章

    1085

    浏览量

    40482
  • 大模型
    +关注

    关注

    2

    文章

    2465

    浏览量

    2764

原文标题:低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何提高透镜成像的分辨率

    透镜成像分辨率是指透镜系统能够分辨的最小细节的能力。提高透镜成像分辨率对于许多应用领域,如显微镜、望远镜、相机等,都是至关重要的。以下是一些提高透镜成像分辨率的方法: 1. 减少像差
    的头像 发表于 12-25 16:54 287次阅读

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 216次阅读

    HDMI接口支持哪些视频分辨率

    HDMI(High-Definition Multimedia Interface)接口支持的视频分辨率因版本不同而有所差异。以下是HDMI接口不同版本所支持的视频分辨率的概述: HDMI 1.4
    的头像 发表于 11-27 14:14 1668次阅读

    视频处理器的分辨率是如何管理的

        随着电子应用技术和消费市场的不断发展,LED显示屏的显示单元之间的间距正在逐渐缩小,然而,显示屏的整体面积却在不断扩大。为了满足这一趋势下对超大输分辨率的需求,视频处理器和拼接器变得
    的头像 发表于 11-11 15:25 272次阅读
    视频处理器的<b class='flag-5'>分辨率</b>是如何管理的

    提高SAR ADC的分辨率

    电子发烧友网站提供《提高SAR ADC的分辨率.pdf》资料免费下载
    发表于 10-25 09:11 0次下载
    提高SAR ADC的<b class='flag-5'>分辨率</b>

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 447次阅读

    什么是高分辨率示波器?它有哪些优势?

    分辨率示波器是一种在信息与系统科学相关工程与技术领域中广泛应用的科学仪器,其设计旨在提供更高的信号分辨率和更精细的信号分析能力。以下是对高分辨率示波器的详细解析,包括其定义、优势以及可能涉及的多个方面。
    的头像 发表于 08-08 11:49 981次阅读

    VR显示器分辨率的选择

    一、VR显示器分辨率的重要性 1.1 分辨率与视觉体验 分辨率是指显示器上能够显示的像素点的数量,通常用水平像素数×垂直像素数来表示。在VR显示器中,分辨率直接影响到用户的视觉体验。高
    的头像 发表于 07-08 10:29 1107次阅读

    基于CNN的图像超分辨率示例

    考虑单个低分辨率图像,首先使用双三次插值将其放大到所需的大小,这是执行的唯一预处理。将插值图像表示为Y。我们的目标是从Y中恢复与真实高分辨率图像X尽可能相似的图像F (Y) 。
    的头像 发表于 03-11 11:40 713次阅读
    基于CNN的图像超<b class='flag-5'>分辨率</b>示例

    华为pockets屏幕分辨率是多少

    华为Pocket S的内屏分辨率是2790×1188,外屏分辨率为340×340。该手机采用了6.9英寸的柔性OLED屏幕,支持120Hz刷新、1440Hz高频PWM调光,色彩表现达到10.7亿色,同时还配备了防反光纳米光学膜
    的头像 发表于 03-06 17:37 1164次阅读

    编码器分辨率是什么意思 编码器分辨率和脉冲数的关系

    按照编码器支持的分辨率可以把编码器分成标清编码器、高清编码器、全高清编码器,分辨率越高帧率越高视频就越清楚。 1.编码器的分辨率是什么意思 编码器的分辨率是指编码器以每旋转360度提供
    的头像 发表于 02-21 18:07 4255次阅读
    编码器<b class='flag-5'>分辨率</b>是什么意思 编码器<b class='flag-5'>分辨率</b>和脉冲数的关系

    电容触摸屏的分辨率怎么调

    电容触摸屏的分辨率调整是通过调整触摸屏的控制器的参数来实现的。触摸屏的分辨率是指能够在屏幕上识别的最小触摸点的像素数量。分辨率越高,触摸屏可以更准确地检测和响应用户的操作。 在调整电容触摸屏的
    的头像 发表于 01-23 16:59 1984次阅读

    镜头分辨率简述

    分辨率可以从显示分辨率与图像分辨率两个方向来分类。
    的头像 发表于 01-15 11:12 946次阅读

    浅谈相机的图像分辨率

    谈到显微成像系统,常常会用分辨率来评价成像能力的高低,那分辨率到底指的是什么,又怎样计算呢?其实对于一个特定的显微成像系统,分辨率要从两个方面来考虑,一种是光学系统的分辨率—光学衍射极
    的头像 发表于 01-09 09:54 1830次阅读
    浅谈相机的图像<b class='flag-5'>分辨率</b>

    adc电路的分辨率怎么算

    ADC(模数转换器)电路的分辨率是指其能够将模拟信号转换为数字信号时能够达到的最小分辨单位。分辨率通常用位数表示,例如10位的ADC具有1024个离散的输出级别。 要计算ADC电路的分辨率
    的头像 发表于 01-04 15:23 7341次阅读