0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

CVer 来源:CVer 2023-12-04 15:33 次阅读

低成本扩大输入分辨率:探秘98亿参数多模态大模型--Monkey眼中的世界

【导读】11月,华中科技大学团队发布了新的多模态大模型——Monkey,通过专注于大分辨率,使得Monkey能够处理分辨率高达1344×896的图像,并加入了有着详细描述的高质量图文数据进行训练,帮助Monkey炼就洞察图像细节的火眼金睛,取得了与Caption和QA任务相关的16个数据集的SOTA,甚至与GPT4V相比,在密集文本问答任务上也有着亮眼的表现。

论文链接:https://arxiv.org/abs/2311.06607

代码地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的问答任务上取得了很不错的效果,可以根据问题的要求进行推理,能够适配中文问答

ed9b49ec-91f5-11ee-939d-92fbcf53809c.gif

在文本较少的场景中Monkey也展现了不俗的问答能力,自身拥有丰富的知识库,可以根据问题进行外推,从而回答出正确的答案

edba5922-91f5-11ee-939d-92fbcf53809c.gif

Monkey在Caption任务上同样取得了出色的结果,不仅仅是对图片进行准确详细的描述,同时能够合理发散,分析出图片所传达的一些抽象含义

以下是Monkey同GPT4V在密集文本与图表上进行问答的可视化结果展示。

edc275e4-91f5-11ee-939d-92fbcf53809c.png

下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务,并在16个数据集上取得SOTA。

edc7e358-91f5-11ee-939d-92fbcf53809c.png

方法介绍:

1. 增大输入分辨率

将原始输入图片裁剪成多个图片块,再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征,训练时仅训练Lora部分,而原始的输入图像则用于提取全局特征,以此方法达到增大输入分辨率的目的。

eddb3a70-91f5-11ee-939d-92fbcf53809c.png

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤:第一步,使用BLIP2对整张图生成全局描述;第二步用 GRIT生成区域框,并提供区域中对象的名称和详细描述,同时使用PPOCR提取区域的文本框坐标和文本内容;第三步使用SAM进行分割,并送入BLIP2生成对各个物体及其组成部分的详细描述;第四步使用BLIP-2 评估过滤掉低分匹配;最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

eddf41ec-91f5-11ee-939d-92fbcf53809c.png

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比,不难看出,两种标注之间存在着较大的差距,生成的详细标注尽可能地包含了图片中的各种细节,而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练,使得Monkey能够更好地把握图文之间的关系。

edf95c12-91f5-11ee-939d-92fbcf53809c.png

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果,从中我们能够更加直观地感受到Monkey强大的问答能力,能够准确地把握住问题并给出正确的回答,尤其是在密集文本问答任务上,目前的大模型或多或少都面临着一定的问题,Monkey为解决这一难题提供了一条可行的出路。

ee01832e-91f5-11ee-939d-92fbcf53809c.png

总结

Monkey提出了一种训练高效的方法,无需预训练即可有效地提高模型的输入分辨率,最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距,Monkey提出了一种多级特征融合的详细描述生成方法,它可以自动提供丰富的信息,以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用,Monkey练就了一双火眼金睛,在多个基准测试中取得了出色的结果。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高分辨率
    +关注

    关注

    0

    文章

    41

    浏览量

    15214
  • 图像
    +关注

    关注

    2

    文章

    1071

    浏览量

    40129
  • 大模型
    +关注

    关注

    2

    文章

    1868

    浏览量

    1494

原文标题:低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    EVAL_PASCO2_SENSOR为什么无法从较低的分辨率高速获得更高的分辨率

    我有一个图像 EVAL_PASCO2_SENSOR,支持高达 3840x2160 分辨率的超高速和高速。 我能以超快的速度拍摄所有静止画面。 但是,当我尝试获得更高分辨率(3840x2160)的静态
    发表于 02-22 07:58

    如何提高硬件pwm的分辨率

    如题,新唐的pwm一般都是16bit, 其实也可以利用预分频比来提高一些所谓的分辨率. 现在有这样一个需求. 要求脉宽在0-65535us之间连续可调, 周期,也类似.但是肯定要大于65535,连续
    发表于 01-16 08:30

    有什么方法可以进一步提高AD7714的分辨率啊?

    从AD7714的datasheet里可以看出,它在输出速率为5Hz时的分辨率可以达到22.5位。可我用干电池的输出电压直接做AD7714的输入时,测得的分辨率最高也就能达到19位;而用微弱信号经过前
    发表于 12-25 06:33

    详述ADC精度和分辨率的差异

    的DC柱状图。 图1:ADC传递曲线上ADC分辨率和有效分辨率的图示 图1中的图表提出了一个有意思的问题。如果同样的模拟输入会导致多个数字输出,那么对于ADC
    发表于 12-20 06:55

    ADC分辨率和精度的区别是什么

    分辨率和精度这两个,经常拿在一起说,才接触的时候经常混为一谈。对于ADC来说,这两样也是非常重要的参数,往往也决定了芯片价格,显然,我们都清楚同一个系列,16位AD一般比12位AD价格贵,但是同样是
    发表于 12-19 06:41

    峰峰值分辨率与有效分辨率的区别

    分辨率 是指无闪烁位数,计算方法与有效分辨率不同。本文将说明峰峰值分辨率与有效分辨率的区别。 先来说说噪声 图1显示模拟输入接地时从
    发表于 12-15 07:56

    ADV7611输入是否支持1024*1024这样的非标准分辨率

    你们好: 请教一下,ADV7611输入是否支持1024*1024这样的非标准分辨率
    发表于 11-29 08:11

    峰值噪声与有效噪声的区别?峰值分辨率与有效分辨率的区别?

    峰值噪声与有效噪声的区别,峰值分辨率与有效分辨率的区别?无失码分辨率又是指的什么?
    发表于 11-27 11:42

    请问有采样250MHz左右、分辨率为12位,管脚兼容8位分辨率的adc吗?

    您好, 请问有采样250MHz左右 分辨率为12位,管脚兼容8位分辨率的adc吗? 谢谢!
    发表于 11-21 06:46

    请问AD5522的分辨率如何提高?

    AD5522的输出电压跨度在22.5V左右,对应16bit的DAC的分辨率约22.5V/65536=343uV。 如果我想提高到170uV左右的分辨率,但是又要保持输出电压跨度22.5V不变需要用
    发表于 11-15 08:20

    怎么调整andriod输出分辨率,适配分辨率大的屏?

    求教,怎么调整andriod输出分辨率,适配分辨率大的屏
    发表于 11-06 07:13

    DIY低成本分辨率的微信热像仪

    便于DIY的低成本方案,分辨率甚至更高!观看视频:https://www.icxbk.com/video/detail/1176.html
    发表于 09-26 07:20

    变速传动中转速估计和转子位置传感器分辨率的选择及ST伺服方案介绍

    转子位置测量的分辨率• 空间量化转子位置影响的建模• 传感器分辨率对速度估计的影响• 变频驱动器基于模型的速度估计算法:• 矢量跟踪观测器• 速度控制回路的调整• 位置传感器分辨率的选
    发表于 09-07 07:10

    科大&字节提出UniDoc:统一的面向文字场景的多模态模型

    如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务,通过多模态指令微调的方式,统一到一个框架中。具体地
    的头像 发表于 08-31 15:29 1169次阅读
    中<b class='flag-5'>科大</b>&amp;字节<b class='flag-5'>提出</b>UniDoc:统一的面向文字场景的多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>