搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

从BLIP-2到SAM视觉语义金字塔+ChatGPT

8G GPU显存即可以运行

代码链接（已开源）：h

https://github.com/showlab/Image2Paragraph

动机：

怎么把图片表示成高质量文本一直是个热门的问题。传统的思路Show，and Tell 等 Image Caption和Dense Caption 等都是依赖大量的人工标注。首先依靠诸如亚马逊AMT（亚非拉大兄弟们）等标注平台给每张图一人写一段描述。其中添加了一系列规则，诸如名词数目，颜色等等。通常用一句简短的话来描述一张图。

然而，这种朴素的标记思路造成了严重的One-to-many问题。如一张图对应很多文本。由于图片和文本之间信息的不对称性，在这类数据上训练的结果很容易陷入平凡解。（Pretrain中也经常遇到的问题）

而LLM（大语言模型）尤其是ChatGPT展现出来的逻辑能力让人望尘莫及。我们惊讶发现，把Bounding Box 和 Object信息给到GPT4， GPT4很自然的能推理出物体之间的位置关系，甚至想像出物体之间的联系。

因此一个很自然的想法就是，用GPT4对每张图生成高信息量的段落，From One-to-many to one-to-one

做法：

低阶语义抽取：

Image Caption, Dense Caption, Object Detection, Segement Anything 等等统一当成视觉理解组件。

如图所示，首先用BLIP2 得到一张图的Coars-grained Caption信息。再用 GRIT得到Dense Caption信息，最终用Segment Anything 去得到Fine- grained Region-level Semantic.

高阶推理：

把金字塔视觉语义给到ChatGPT，让ChatGPT去推理物体之间的关系和物体的物质信息等，最终生成一个高质量Unique的文本段落。

可视化：

最后对生成的段落，放进Control Net生成一张重构的图。

实验：

最后是一些运行结果：

对生成的段落用ControlNet生成新图片。

Region-level Semantic:

最后有意思的是：

当我们把图片变成文本之后。不需要训练的情况下，检索效果竟然好与在COCO上 Train的结果。

一些呼之欲出的问题即将到来：

现有Vision- language Pretrain需不需要新的 Data collection 范式？

现有的Image- Text 数据集尤其是Caption数据需不需要Refine？

参考：

Show，And Tell.GRIT.ChatGPT.Segment Anything.ControlNet.Blip2.

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SAM

SAM

+关注

关注
0

文章
113

浏览量
33555
数据集

数据集

+关注

关注
4

文章
1209

浏览量
24782
ChatGPT

ChatGPT

+关注

关注
29

文章
1566

浏览量
7926

原文标题：从BLIP-2到SAM视觉语义金字塔+ChatGPT= 把图片变文本段落， 8G显存即可Run

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

评论

相关推荐

VirtualLab Fusion案例：反射式金字塔波前传感器的仿真

摘要与传统的夏克-哈特曼传感器相比，使用金字塔形棱镜或反射器的波前传感器（PyWFS，用于金字塔波前传感器）具有高对比度和更好的波前灵敏度，例如用于天文学中太阳系外行星的搜索。因此，这种类型的波前

发表于 01-17 09:51

PCB工程师金字塔分级标准

PCB工程师金字塔分级标准

发表于 08-06 13:21

自制for循环打印金字塔

自制for循环打印金字塔

发表于 09-18 08:46

基于近似高斯金字塔的视觉注意模型快速算法

利用输入图像的近似高斯金字塔,将经典的基于显著性的视觉注意模型改造为时空开销更小的版本,从而使其更加适合在嵌入式实时系统中实现.首先采用矩形窗口近似圆形窗口,矩形平

发表于 12-30 10:36 •12次下载

基于金字塔模型的地形网格裂缝消除算法

本文针对基于多分辨金字塔模型绘制海量地形时的网格裂缝问题，提出了一种网格裂缝消除算法。该算法利用分裂标记表，结合金字塔模型本身分块与多分辨率的特性，从整体上

发表于 12-30 12:02 •8次下载

工程师电子制作故事：单片机控制LED金字塔DIY设计

　　首先要说一下哪些人适合做这个金字塔：完全不懂程序的是可以的，但是一定要有焊接基础。如果你自己焊接不出51最小系统，也搞不定8X8的点阵，那我不建议你来做这个金字塔。

发表于 05-01 10:37 •2.3w次阅读

工程师电子制作故事：单片机控制LED<b class='flag-5'>金字塔</b>DIY设计

图像金字塔和resize综合示例_《OpenCV3编程入门》书本配套源代码

《OpenCV3编程入门》书本配套源代码:图像金字塔和resize综合示例

发表于 06-06 15:52 •3次下载

基于压缩金字塔核稀疏表示的人脸识别_周凯

基于压缩金字塔核稀疏表示的人脸识别_周凯

发表于 01-08 11:13 •0次下载

绘制金字塔程序实现

用c语言编程绘制金字塔

发表于 11-27 16:24 •839次阅读

可控特性的金字塔变换

本文设计了一种具有平移不变性、方向和尺度联合可控特性的金字塔变换，称为几何变形可控金字塔变换（DPT）。此DPT从一种数值形式表示的方向可控金字塔变换（SPT）发展而来。我们以SPT的每一个方向可控

发表于 12-14 16:41 •4次下载

可控特性的<b class='flag-5'>金字塔</b>变换

一种金字塔注意力网络，用于处理图像语义分割问题

基于以上观察，我们提出了特征金字塔注意力模块 (FPA)，该模块能够融合来自 U 型网络 (如特征金字塔网络 FPN) 所提取的三种不同尺度的金字塔特征。为了更好地提取不同尺度下金字塔

的头像

发表于 06-05 09:21 •1.2w次阅读

一种<b class='flag-5'>金字塔</b>注意力网络，用于处理图像<b class='flag-5'>语义</b>分割问题

中国集成电路封装行业市场现状——金字塔的尖顶与基座

中国集成电路封装行业技术演变路程漫漫集成电路封装在电子学金字塔中的位置既是金字塔的尖顶又是金字塔的基座。

的头像

发表于 07-11 14:51 •3378次阅读

基于规范化函数的深度金字塔模型算法

时的检测效果不理想。因此，提出一种基于规范化函欻的深度金字塔模型（Norm-DP）算法，使用规范化函数融合可变形部件模型和卷积神经网络模型，直接从金字塔特征中提取正负样本，使用隐变量攴持向量杋进行模型训练，结合柔性非

发表于 03-30 14:09 •14次下载

基于规范化函数的深度<b class='flag-5'>金字塔</b>模型算法

DIY自制基于51单片机的LED金字塔

电子发烧友网站提供《DIY自制基于51单片机的LED金字塔.pdf》资料免费下载

发表于 10-25 10:27 •0次下载

DIY自制基于51单片机的LED<b class='flag-5'>金字塔</b>

谈谈PCB工程师金字塔分级标准

印刷电路板(PCB)工程师是电子行业中至关重要的角色，他们的工作直接关系到电子产品的质量和性能。为了明确不同PCB工程师的技能水平和职责范围，行业内形成了金字塔分级标准。下面将谈谈这个金字塔的分级标准。

的头像

发表于 12-25 10:02 •251次阅读