0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

CVer 来源:CVer 2023-12-10 10:28 次阅读

简介

本文介绍了一个名为Alpha-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

9ac46fc6-96ac-11ee-8b88-92fbcf53809c.png

图1 Alpha-CLIP使用场景总览

CLIP作为目前最流行的视觉基座模型被广泛使用。它的应用场景包括但不限于1.与LLM大语言模型结合成为视觉多模态大模型。2.作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model, 实现image-to-3D。3.用于指导NeRF的优化方向从而实现text-to-3D。4.本身用于开放类别的识别和检测

然而CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域。然而,自然的2D图片中往往包含不同的物体,part和thing。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会提升CLIP模型的可控制性和区域检测能力。

为此,上海人工智能实验室联合上海交通大学、复旦大学、香港中文大学、澳门大学的学者们提出了Alpha-CLIP模型,在原始CLIP模型的RGB三个通道的基础上额外引入了第四个alpha通道来决定需要关注的区域。通过构造千万量级的【RGBA四通道图片-文本对】对Alpha-CLIP进行训练,Alpha-CLIP不仅在ImageNet上保持了原始的全图检测能力,还能对用户指定的任意区域进行highlight关注。下面分别介绍Alpha-CLIP的应用场景。

9ae2f9be-96ac-11ee-8b88-92fbcf53809c.png

* 论文链接:https://arxiv.org/abs/2312.03818 * 项目主页:https://aleafy.github.io/alpha-clip * 代码链接:https://github.com/SunzeY/AlphaCLIP1. 图像分类

如图所示,对于ImagNet的一张图片,我们可以通过alpha-map控制CLIP去关注鱼或渔夫。

9afde3fa-96ac-11ee-8b88-92fbcf53809c.png

9b149d20-96ac-11ee-8b88-92fbcf53809c.png

以ImageNet的Zero-Shot Classification作为评价指标,我们验证了在对全图进行识别时,Alpha-CLIP可以保持原本CLIP的分类准确率。进一步地,在给出了需要关注区域的长方形box或者mask时,Alpha-CLIP可以进一步提升分类准确率。

2. 与LLM大语言模型的结合

将主流的LLaVA-1.5中的CLIP基座模型替换为Alpha-CLIP,用户可以通过简单地用画笔标记处需要关注的区域,从而进行指定区域的对话交互。

在定量实验方面,我们通过LLaVA测试了MLLM的region caption能力。通过在RefCOCO和VG上分别进行finetune,取得了SOTA的region caption分数。

9b25a822-96ac-11ee-8b88-92fbcf53809c.png

3. 与Stable Diffusion的结合

Stable-Diffusion是目前主流的2D图片生成模型,其Image Variation版本可以实现“图生图”,其中图片的编码器也是CLIP模型。通过将该模型替换为Alpha-CLIP,可以实现更复杂图片中指定物体的生成(同时较好地保留背景)。如上图所示,使用原始的CLIP会生成同时具有狮子和老虎特征的“狮虎兽”,而Alpha-CLIP能够很好地区分两个物体,从而指导Stable Diffusion模型生成更专一的图片。更多结果见下图

9b33657a-96ac-11ee-8b88-92fbcf53809c.png

4. 与Point-E的结合

Point-E是Open-AI开源的一个支持Image-to-3D和text-to-3D的点云diffusion模型,通过将它的Image编码器从原始的CLIP替换为Alpha-CLIP。可以支持用户对任意区域进行关注,从而恢复丢失的“表针”和“盾牌的十字架”。更多结果见下图

9b53d166-96ac-11ee-8b88-92fbcf53809c.png

5. Attention Map可视化

本工作对Alpha-CLIP的注意力进行可视化,以检查Alpha-CLIP是否更加关注用户定义alpha-map。通过检查视觉编码器中最后一个Transformer块中[CLS] token的注意力图。可视化采用了具有16个注意头的ViT-L/14模型。为了进行公正比较,使用第5和第16个注意头的注意力图进行可视化,因为我们发现在这16个头中,这两个特征图最为明显。结果如下图所示。这种可视化验证了Alpha-CLIP更加关注要聚焦的区域,更重要的是,它在保留原始CLIP特征位置的二维位置信息时没有造成损害。

9b755b6a-96ac-11ee-8b88-92fbcf53809c.png

结论

本文介绍的这项工作提出了Alpha-CLIP模型,该模型引入了一个额外的alpha通道,用于指定感兴趣的区域。通过对数百万个RGBA区域-文本对进行训练,Alpha-CLIP不仅表现出卓越的区域关注能力,而且确保其输出空间与原始的CLIP模型保持一致。这种一致性使得Alpha-CLIP在CLIP的各种下游应用中能够轻松替代,无缝衔接。我们证明了当提供特定关注的区域时,Alpha-CLIP展现出了更强大的Zero-Shot识别能力,并验证了它在许多下游任务中的有用性。CLIP的应用远远超出了本文的范围。我们希望在前景区域或mask较容易获得时,Alpha-CLIP将能够在更多场景中得到应用。

虽然Alpha-CLIP在需要关注区域的各种场景中表现出有效的性能,但目前的结构和训练过程限制了其专注于多个对象或建模不同对象之间关系的能力。此外,当前的训练方法限制了alpha通道在中间值之外的泛化(只能接受0,1两个值)。因此,用户无法指定注意力的幅度。另一个限制同时存在于我们的Alpha-CLIP和原始CLIP中,即纯Transformer结构的编码器分辨率较低,这阻碍了Alpha-CLIP识别小物体并进行关注。我们计划在未来的工作中解决这些限制并扩展CLIP的输入分辨率。我们相信这些未来的方向是增强Alpha-CLIP能力并在各种下游任务中扩展其实用性的途径。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238253
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6664
  • 大模型
    +关注

    关注

    2

    文章

    2423

    浏览量

    2641

原文标题:更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    新品 | 可拼接灯板矩阵 Puzzle Unit & 创意固定套件CLIP-A/CLIP-B

    本月的第三波新品上线了3款全新产品,涵盖了多种需求和应用领域。从激发兴趣和创意的PuzzleUnit,到多功能创意套件CLIP-A&CLIP-B,每一款都为不同场景提供了创新解决方案。快来
    的头像 发表于 11-16 01:07 134次阅读
    新品 | 可拼接灯板矩阵 Puzzle Unit &amp;amp; 创意固定套件<b class='flag-5'>CLIP</b>-A/<b class='flag-5'>CLIP</b>-B

    使用TPA6112A后,蓝牙1KHz信号有失真现象,怎么解决?

    测试条件:手机蓝牙播放1KHz信号; 蓝牙输出的单端信号波形(贵司TPA6112A输入端)图如下及附件clip_image002 经过TPA6112A后信号波形如下图,能够很明显的看出
    发表于 11-04 07:00

    设计的tas5613a板子BTL模式正常工作1,2分钟后clip告警,输出端电压为0是哪里的问题?怎么解决?

    我的电路是参照手册设计的,外围元件参数和手册中的一样,有时加电时就clip告警,输出ABCD四个输出电压为0,有时能正常工作一段时间,没有任何问题!请工程师帮助分析一下
    发表于 10-30 07:25

    TPA3251不小心把GVDD_CD脚和CLIP管脚碰到一起,然后CILP和FAULT指示灯一直亮,管脚一直输出低电平,什么问题?

    求帮忙,我测量demo板的CLIP管脚的电压输出时,不小心把GVDD_CD脚和CLIP管脚碰到一起了,然后CILP和FAULT指示灯一直亮,这两个管脚也一直输出低电平。是不是TPA3251芯片被我烧毁了?谢谢。
    发表于 10-29 07:50

    为什么我的TPA3251上电后,FAULT和CLIP_OTW输出电压是1.4V左右?

    请教大神们,为什么我的TPA3251上电后,FAULT和CLIP_OTW输出电压是1.4V左右。我的PVDD是15V,GVDD是12V,就算把PVDD调高了,也是输出1.4V左右的电压。求教大神们给解答,急急急。谢谢谢谢谢谢
    发表于 10-29 07:05

    请问TPA3244,RESET FAULT CLIP_OTW怎么跟MCU连接?

    TPA3244,RESET FAULT CLIP_OTW,怎么跟MCU连接,还有我直接上电,没有MUTE控制会不会有PO PO 声
    发表于 10-14 06:38

    TPA3220功放的OTW_CLIP管脚会异常拉低,为什么?

    当功放的功率达到120W时,TPA3220功放的OTW_CLIP管脚会异常拉低。 正常情况下FAULT和OTW_CLIP管脚均为高电平,如图为FAULT和OTW_CLIP管脚的真值表图, 图为异常时抓取的波形:
    发表于 09-29 09:04

    TAS5630电路PBTL接法,CLIP灯无法灭是怎么回事?

    TAS5630电路PBTL接法,正在测试时CLIP信号灯亮(CLIP低电平),输出为0,无论重新开机或人工复位,均不能使得CLIP灯灭,请大侠教我。谢谢。
    发表于 09-03 07:58

    便携解码耳放 - 你随时随地享受顶级音质

    便携解码耳放将高保真音质和便携性完美结合,让你在任何地方都能享受到顶级的音乐体验。
    的头像 发表于 07-24 17:55 1474次阅读
    便携解码耳放 - <b class='flag-5'>让</b>你随时随地享受顶级音质

    如何停止引导加载程序输出消息?

    我想知道是否有任何方法可以停止引导加载程序输出消息,或者至少能够将它们定向到 UART1 而不是 UART0? 另外,引导加载程序的源代码是否在任何地方都可用?我找不到它们,但我可能找错了地方
    发表于 07-15 06:33

    求分享esp8266和esp32的汇编指令集?

    想做操作系统移植,可是没有在网上任何地方找到汇编指令集和寄存器说明,能否出一个?或者告诉我在那里找
    发表于 06-05 06:20

    CapSENSE在CSX模式下同时跟踪的触点数量是否有限制?

    我没有在任何地方看到这样的数字。 CapSENSE 最新一代(GEN 5)在 CSX 模式下同时跟踪的触点数量是否有限制? 据我所知,CapSENSE Tuner 应用程序仅限三个。
    发表于 05-29 06:18

    爱芯元智推出边端侧智能SoCAX650N,视觉更智能

    当前大模型蓬勃发展,OpenAI的Sora、ChatGPT、CLIP、DALL-E,Google的Gemini、ViT-22B,Meta的LLaMA3、DINO v2,
    的头像 发表于 05-09 14:39 1544次阅读
    爱芯元智推出边端侧智能SoCAX650N,<b class='flag-5'>让</b>视觉更智能

    TPAK SiC优选解决方案:有压烧结银+铜夹Clip无压烧结银

    TPAK SiC优选解决方案:有压烧结银+铜夹Clip无压烧结银
    的头像 发表于 04-25 20:27 696次阅读
    TPAK SiC优选解决方案:有压烧结银+铜夹<b class='flag-5'>Clip</b>无压烧结银

    全志R128 SDK HAL 模块开发指南——G2D

    ]; g2d_rect clip_rect; g2d_size resize; g2d_coor coor; __u32 gamut; int bpremul; __u8 alpha
    发表于 04-01 13:31