0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从BLIP-2到SAM视觉语义金字塔+ChatGPT

CVer 来源:CVer 2023-04-17 11:03 次阅读

745653f2-dc7d-11ed-bfe3-dac502259ad0.jpg

8G GPU显存即可以运行

746049f2-dc7d-11ed-bfe3-dac502259ad0.jpg

代码链接(已开源):h

https://github.com/showlab/Image2Paragraph

动机:

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show,and Tell 等 Image Caption和Dense Caption 等都是依赖大量的人工标注。首先依靠诸如亚马逊AMT( 亚非拉大兄弟们)等标注平台给每张图一人写一段描述。其中添加了一系列规则,诸如名词数目,颜色等等。通常用一句简短的话来描述一张图。

然而,这种朴素的标记思路造成了严重的One-to-many问题。如一张图对应很多文本。由于图片和文本之间信息的不对称性,在这类数据上训练的结果很容易陷入平凡解。(Pretrain中也经常遇到的问题)

而LLM(大语言模型)尤其是ChatGPT展现出来的逻辑能力让人望尘莫及。我们惊讶发现, 把Bounding Box 和 Object信息给到GPT4, GPT4很自然的能推理出物体之间的位置关系,甚至想像出物体之间的联系。

因此一个很自然的想法就是, 用GPT4对每张图生成高信息量的段落,From One-to-many to one-to-one

做法:

低阶语义抽取:

Image Caption, Dense Caption, Object Detection, Segement Anything 等等统一当成视觉理解组件。

74699304-dc7d-11ed-bfe3-dac502259ad0.jpg

如图所示,首先用BLIP2 得到一张图的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息,最终用Segment Anything 去得到Fine- grained Region-level Semantic.

高阶推理:

把金字塔视觉语义给到ChatGPT,让ChatGPT去推理物体之间的关系和物体的物质信息等,最终生成一个高质量Unique的文本段落。

可视化:

最后对生成的段落,放进Control Net生成一张重构的图。

实验:

最后是一些运行结果:

对生成的段落用ControlNet生成新图片。

7474fdca-dc7d-11ed-bfe3-dac502259ad0.jpg

747fc548-dc7d-11ed-bfe3-dac502259ad0.jpg

748ac7e0-dc7d-11ed-bfe3-dac502259ad0.jpg


Region-level Semantic:

749b8288-dc7d-11ed-bfe3-dac502259ad0.jpg



最后有意思的是:

当我们把图片变成文本之后。不需要训练的情况下,检索效果竟然好与在COCO上 Train的结果。

74a4cadc-dc7d-11ed-bfe3-dac502259ad0.jpg

一些呼之欲出的问题即将到来:

现有Vision- language Pretrain需不需要新的 Data collection 范式?

现有的Image- Text 数据集尤其是Caption数据需不需要Refine?

参考:

Show,And Tell.GRIT.ChatGPT.Segment Anything.ControlNet.Blip2.

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAM
    SAM
    +关注

    关注

    0

    文章

    112

    浏览量

    33506
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24655
  • ChatGPT
    +关注

    关注

    29

    文章

    1550

    浏览量

    7543

原文标题:从BLIP-2到SAM视觉语义金字塔+ChatGPT= 把图片变文本段落, 8G显存即可Run

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PCB工程师金字塔分级标准

    PCB工程师金字塔分级标准
    发表于 08-06 13:21

    自制for循环打印金字塔

    自制for循环打印金字塔
    发表于 09-18 08:46

    基于近似高斯金字塔视觉注意模型快速算法

    利用输入图像的近似高斯金字塔,将经典的基于显著性的视觉注意模型改造为时空开销更小的版本,从而使其更加适合在嵌入式实时系统中实现.首先采用矩形窗口近似圆形窗口,矩形平
    发表于 12-30 10:36 12次下载

    基于金字塔模型的地形网格裂缝消除算法

    本文针对基于多分辨金字塔模型绘制海量地形时的网格裂缝问题,提出了一种网格裂缝消除算法。该算法利用分裂标记表,结合金字塔模型本身分块与多分辨率的特性,整体上
    发表于 12-30 12:02 8次下载

    工程师电子制作故事:单片机控制LED金字塔DIY设计

      首先要说一下哪些人适合做这个金字塔:完全不懂程序的是可以的,但是一定要有焊接基础。如果你自己焊接不出51最小系统,也搞不定8X8的点阵,那我不建议你来做这个金字塔
    发表于 05-01 10:37 2.3w次阅读
    工程师电子制作故事:单片机控制LED<b class='flag-5'>金字塔</b>DIY设计

    图像金字塔和resize综合示例_《OpenCV3编程入门》书本配套源代码

    《OpenCV3编程入门》书本配套源代码:图像金字塔和resize综合示例
    发表于 06-06 15:52 3次下载

    基于压缩金字塔核稀疏表示的人脸识别_周凯

    基于压缩金字塔核稀疏表示的人脸识别_周凯
    发表于 01-08 11:13 0次下载

    绘制金字塔程序实现

    用c语言编程绘制金字塔
    发表于 11-27 16:24 816次阅读

    可控特性的金字塔变换

    本文设计了一种具有平移不变性、方向和尺度联合可控特性的金字塔变换,称为几何变形可控金字塔变换(DPT)。此DPT从一种数值形式表示的方向可控金字塔变换(SPT)发展而来。我们以SPT的每一个方向可控
    发表于 12-14 16:41 4次下载
    可控特性的<b class='flag-5'>金字塔</b>变换

    基于梯度方向直方图与高斯金字塔的车牌模糊汉字识别方法

    针对现有车牌识别方法中对模糊车牌识别率不高的问题,提出一种结合高斯金字塔与梯度方向直方图(HOG)特征的车牌识别算法。利用金字塔模型多尺度表达的方法,首先对车牌模糊汉字图像建立两层高斯金字塔模型
    发表于 12-25 10:43 0次下载
    基于梯度方向直方图与高斯<b class='flag-5'>金字塔</b>的车牌模糊汉字识别方法

    一种金字塔注意力网络,用于处理图像语义分割问题

    基于以上观察,我们提出了特征金字塔注意力模块 (FPA),该模块能够融合来自 U 型网络 (如特征金字塔网络 FPN) 所提取的三种不同尺度的金字塔特征。为了更好地提取不同尺度下金字塔
    的头像 发表于 06-05 09:21 1.2w次阅读
    一种<b class='flag-5'>金字塔</b>注意力网络,用于处理图像<b class='flag-5'>语义</b>分割问题

    中国集成电路封装行业市场现状——金字塔的尖顶与基座

    中国集成电路封装行业技术演变路程漫漫集成电路封装在电子学金字塔中的位置既是金字塔的尖顶又是金字塔的基座。
    的头像 发表于 07-11 14:51 3292次阅读

    如何实现多聚焦图像融合的拉普拉斯金字塔方法

    本文档的主要内容详细介绍的是如何实现多聚焦图像融合的拉普拉斯金字塔方法。
    发表于 02-03 11:40 2次下载
    如何实现多聚焦图像融合的拉普拉斯<b class='flag-5'>金字塔</b>方法

    基于规范化函数的深度金字塔模型算法

    时的检测效果不理想。因此,提出一种基于规范化函欻的深度金字塔模型(Norm-DP)算法,使用规范化函数融合可变形部件模型和卷积神经网络模型,直接金字塔特征中提取正负样本,使用隐变量攴持向量杋进行模型训练,结合柔性非
    发表于 03-30 14:09 14次下载
    基于规范化函数的深度<b class='flag-5'>金字塔</b>模型算法

    DIY自制基于51单片机的LED金字塔

    电子发烧友网站提供《DIY自制基于51单片机的LED金字塔.pdf》资料免费下载
    发表于 10-25 10:27 0次下载
    DIY自制基于51单片机的LED<b class='flag-5'>金字塔</b>