0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源模型OpenCLIP达成ImageNet里程碑成就

OpenCV学堂 来源:新智元 2023-02-07 13:59 次阅读

【导读】开源模型OpenCLIP达成ImageNet里程碑成就!
虽然ImageNet早已完成历史使命,但其在计算机视觉领域仍然是一个关键的数据集。 2016年,在ImageNet上训练后的分类模型,sota准确率仍然还不到80%;时至今日,仅靠大规模预训练模型的zero-shot泛化就能达到80.1%的准确率。 d3b92fee-a498-11ed-bfe3-dac502259ad0.png 最近LAION使用开源代码OpenCLIP框架训练了一个全新的 ViT-G/14 CLIP 模型,在 ImageNet数据集上,原版OpenAI CLIP的准确率只有75.4%,而OpenCLIP实现了80.1% 的zero-shot准确率,在 MS COCO 上实现了74.9% 的zero-shot图像检索(Recall@5),这也是目前性能最强的开源 CLIP 模型 d3cf4a86-a498-11ed-bfe3-dac502259ad0.png LAION全称为Large-scale Artificial Intelligence Open Network,是一家非营利组织,其成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%免费。 感兴趣的小伙伴可以把手头的CLIP模型更新版本了! d3f2d668-a498-11ed-bfe3-dac502259ad0.png

模型地址:https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k

OpenCLIP模型在各个数据集上具体的性能如下表所示。 d40be270-a498-11ed-bfe3-dac502259ad0.png

Zero-shot能力

一般来说,计算机视觉(CV)模型在各个任务上的sota性能都是基于特定领域的训练数据,无法泛化到其他领域或任务中,导致对视觉世界的通用属性理解有限。泛化问题对于那些缺少大量训练数据的领域尤其重要。 理想情况下,CV模型应该学会图像的语义内容,而非过度关注训练集中的特定标签。比如对于狗的图像,模型应该能够理解图像中有一只狗,更进一步来理解背景中有树、时间是白天、狗在草地上等等。 但当下采用「分类训练」得到的结果与预期正好相反,模型学习将狗的内部表征推入相同的「狗向量空间」,将猫推入相同的「猫向量空间」,所有的问题的答案都是二元,即图像是否能够与一个类别标签对齐。 d41cebd8-a498-11ed-bfe3-dac502259ad0.png 对新任务重新训练一个分类模型也是一种方案,但是训练本身需要大量的时间和资金投入来收集分类数据集以及训练模型。 幸运的是,OpenAI 的CLIP模型是一个非常灵活的分类模型,通常不需要重新训练即可用于新的分类任务中。

CLIP为何能Zero-Shot

对比语言-图像预训练(CLIP, Contrastive Language-Image Pretraining)是 OpenAI 于2021年发布的一个主要基于Transformer的模型。

CLIP 由两个模型组成,一个Transformer编码器用于将文本转换为embedding,以及一个视觉Transformer(ViT)用于对图像进行编码。

d43ed216-a498-11ed-bfe3-dac502259ad0.png

CLIP内的文本和图像模型在预训练期间都进行了优化,以在向量空间中对齐相似的文本和图像。在训练过程中,将数据中的图像-文本对在向量空间中将输出向量推得更近,同时分离不属于一对的图像、文本向量。

d4582464-a498-11ed-bfe3-dac502259ad0.png

CLIP与一般的分类模型之间有几个区别:

首先,OpenAI 使用从互联网上爬取下来的包含4亿文本-图像对的超大规模数据集进行训练,其好处在于:

1. CLIP的训练只需要「图像-文本对」而不需要特定的类标签,而这种类型的数据在当今以社交媒体为中心网络世界中非常丰富。

2. 大型数据集意味着 CLIP 可以对图像中的通用文本概念进行理解的能力。

3. 文本描述(text descriptor)中往往包含图像中的各种特征,而不只是一个类别特征,也就是说可以建立一个更全面的图像和文本表征。

上述优势也是CLIP其建立Zero-shot能力的关键因素,论文的作者还对比了在ImageNet上专门训练的 ResNet-101模型和 CLIP模型,将其应用于从ImageNet 派生的其他数据集,下图为性能对比。

d473c084-a498-11ed-bfe3-dac502259ad0.png

可以看到,尽管 ResNet-101是在ImageNet上进行训练的,但它在相似数据集上的性能要比 CLIP 在相同任务上的性能差得多。

在将 ResNet 模型应用于其他领域时,一个常用的方法是「linear probe」(线性探测),即将ResNet模型最后几层所学到的特性输入到一个线性分类器中,然后针对特定的数据集进行微调。

在CLIP论文中,线性探测ResNet-50与zero-shot的CLIP 进行了对比,结论是在相同的场景中,zero-shot CLIP 在多个任务中的性能都优于在ResNet-50中的线性探测。

d49583f4-a498-11ed-bfe3-dac502259ad0.png

不过值得注意的是,当给定更多的训练样本时,Zero-shot并没有优于线性探测。

用CLIP做Zero-shot分类

从上面的描述中可以知道,图像和文本编码器可以创建一个512维的向量,将输入的图像和文本输入映射到相同的向量空间。

用CLIP做Zero-shot分类也就是把类别信息放入到文本句子中。

举个例子,输入一张图像,想要判断其类别为汽车、鸟还是猫,就可以创建三个文本串来表示类别:

T1代表车:a photo of a car

T2代表鸟:a photo of a bird

T3代表猫:a photo of a cat

将类别描述输入到文本编码器中,就可以得到可以代表类别的向量。

假设输入的是一张猫的照片,用 ViT 模型对其进行编码获取图像向量后,将其与类别向量计算余弦距离作为相似度,如果与T3的相似度最高,就代表图像的类别属于猫。

d4a83a94-a498-11ed-bfe3-dac502259ad0.png

可以看到,类别标签并不是一个简单的词,而是基于模板「a photo of a {label}」的格式重新改写为一个句子,从而可以扩展到不受训练限制的类别预测。

实验中,使用该prompt模板在ImageNet的分类准确性上提高了1.3个百分点,但prompt模板并不总是能提高性能,在实际使用中需要根据不同的数据集进行测试。

Python实现

想要快速使用CLIP做zero-shot分类也十分容易,作者选取了Hugging Face中的frgfm/imagenette数据集作为演示,该数据集包含10个标签,且全部保存为整数值。

d4c6575e-a498-11ed-bfe3-dac502259ad0.png

使用 CLIP进行分类,需要将整数值标签转换为对应的文本内容。

d4da4c14-a498-11ed-bfe3-dac502259ad0.png

在直接将标签和照片进行相似度计算前,需要初始化 CLIP模型,可以使用通过 Hugging Face transformers找到的 CLIP 实现。

d4efa33e-a498-11ed-bfe3-dac502259ad0.png

文本transformer无法直接读取文本,而是需要一组称为token ID(或input _ IDs)的整数值,其中每个唯一的整数表示一个word或sub-word(即token)。

d4ffc138-a498-11ed-bfe3-dac502259ad0.png

将转换后的tensor输入到文本transformer中可以获取标签的文本embedding

d50e188c-a498-11ed-bfe3-dac502259ad0.png

注意,目前CLIP输出的向量还没有经过归一化(normalize),点乘后获取的相似性结果是不准确的。

d51c5320-a498-11ed-bfe3-dac502259ad0.png

下面就可以选择一个数据集中的图像作测试,经过相同的处理过程后获取到图像向量。

d52f30b2-a498-11ed-bfe3-dac502259ad0.png

将图像转换为尺寸为(1, 3, 224, 224)向量后,输入到模型中即可获得embedding

d557eda4-a498-11ed-bfe3-dac502259ad0.png

下一步就是计算图像embedding和数据集中的十个标签文本embedding之间的点积相似度,得分最高的即是预测的类别。

d5679448-a498-11ed-bfe3-dac502259ad0.png

模型给出的结果为cassette player(盒式磁带播放器),在整个数据集再重复运行一遍后,可以得到准确率为98.7%

d57f0682-a498-11ed-bfe3-dac502259ad0.png

除了Zero-shot分类,多模态搜索、目标检测、 生成式模型如OpenAI 的 Dall-E 和 Stable disusion,CLIP打开了计算机视觉的新大门。


审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3348

    浏览量

    42499
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45993
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24701

原文标题:ImageNet零样本准确率首次超过80%,地表最强开源CLIP模型更新

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    e络盟达成micro:bit分销里程碑

    近日,全球电子元器件产品与解决方案分销商e络盟,与合作伙伴Micro:bit教育基金会共同宣布了一项重要里程碑:e络盟成功制造并分销了超过1000万台BBC micro:bit计算机。这一成就
    的头像 发表于 12-23 16:26 200次阅读

    Meta重磅发布Llama 3.3 70B:开源AI模型的新里程碑

    新的高度。 一,技术突破:开源智能的新高度 Llama 3.3 70B 模型的发布,标志着开源AI模型在智能水平上的一大飞跃。它不仅达到了之前只有 Llama 3.1 405B
    的头像 发表于 12-18 16:46 124次阅读
    Meta重磅发布Llama 3.3 70B:<b class='flag-5'>开源</b>AI<b class='flag-5'>模型</b>的新<b class='flag-5'>里程碑</b>

    破万亿!中国芯片出口迎来里程碑

    在全球科技竞争日益激烈的今天,中国芯片产业的发展备受瞩目。根据海关总署最新公布的数据,2023年前11个月,中国集成电路出口额首次突破1万亿元人民币,同比增长20.3%,这一里程碑式的成就标志着中国
    的头像 发表于 12-17 16:43 417次阅读
    破万亿!中国芯片出口迎来<b class='flag-5'>里程碑</b>

    e络盟达成BBC micro:bit计算机制造分销里程碑

    近日,全球电子元器件产品与解决方案分销商e络盟(隶属于安富利集团)与Micro:bit教育基金会共同宣布了一项重大里程碑达成。e络盟已经成功制造并分销了超过1000万台的BBC micro:bit
    的头像 发表于 12-13 10:10 143次阅读

    e络盟达成制造分销千万台BBC micro:bit里程碑

    近日,安富利旗下全球电子元器件产品与解决方案分销商e络盟,携手其合作伙伴Micro:bit教育基金会,共同宣布了一项重要里程碑达成。e络盟已经成功制造并分销了超过1000万台BBC micro
    的头像 发表于 12-12 11:22 248次阅读

    e络盟实现重要里程碑:成功分销 1000 万套 micro:bit 设备

    安富利旗下全球电子元器件产品与解决方案分销商e络盟与合作伙伴 Micro:bit 教育基金会日前携手宣布,e络盟成功达成了制造并分销超过 1000 万台 BBC micro:bit 计算机的重大里程碑,以帮助全球青少年通过物理计算发现编程的乐趣。
    的头像 发表于 12-12 10:34 164次阅读
    e络盟实现重要<b class='flag-5'>里程碑</b>:成功分销 1000 万套 micro:bit 设备

    比亚迪达成新能源汽车下线千万辆里程碑

    近日,比亚迪迎来了其发展历程中的一个重要里程碑——第1000万辆新能源汽车正式下线。这一历史性的时刻标志着比亚迪在新能源汽车领域的卓越成就和持续创新。 此次下线的车型为腾势Z9,一款定位于D级市场
    的头像 发表于 11-19 14:16 573次阅读

    黑芝麻智能与Nullmax达成重要合作里程碑

    近日,自动驾驶技术领域的两大领先企业——黑芝麻智能与Nullmax宣布达成了一项重要的合作里程碑。双方基于黑芝麻智能的武当C1200家族芯片,共同推出了BEV无图方案,并成功实现了NOA领航辅助、记忆行车及记忆泊车等高阶智能驾驶功能。
    的头像 发表于 10-10 18:15 626次阅读

    爱玛机电突破千万台电机产量里程碑

     在电动车行业迎来新里程碑的9月25日,爱玛科技集团股份有限公司(以下简称“爱玛科技”)宣布其机电事业部成功实现累计产量从300万台到1000万台的飞跃。这一成就不仅标志着爱玛机电在电动车动力领域的行业地位进一步巩固,也充分展示了中国在两轮电动车制造领域的强大创新能力和市
    的头像 发表于 09-26 17:07 658次阅读

    比亚迪创历史,率先实现第900万辆新能源汽车下线里程碑

    9月25日,比亚迪汽车集团在深汕特别合作区的工厂内隆重举行了集团历史上具有里程碑意义的第900万辆新能源汽车——豪华纯电性能超跑仰望U9的下线仪式。这一壮举标志着比亚迪成为全球首个达成成就的汽车制造商,不仅为中国汽车工业书写了
    的头像 发表于 09-26 15:59 1495次阅读

    特斯拉里程碑达成:第1亿颗4680电池震撼问世

    特斯拉的4680电池技术再次跨越重要里程碑,公司于9月15日欣然宣布,其第1亿颗创新性的4680电池已成功下线,这一成就标志着特斯拉在电池制造领域的飞速进展。特斯拉首席执行官埃隆·马斯克通过社交媒体向辛勤工作的电池团队致以热烈祝贺,彰显了公司对这一
    的头像 发表于 09-18 15:30 1243次阅读

    Waymo自动驾驶里程碑:Alphabet引领未来出行新篇章

    聚焦于Waymo近期达成的一周内完成10万次行程的里程碑成就,这一壮举在自动驾驶行业发展中无疑投下了震撼弹。
    的头像 发表于 08-26 17:14 1176次阅读

    特斯拉迎来里程碑:全球第1000万个电驱系统下线

    在科技日新月异的今天,电动汽车行业的领军企业特斯拉再次以非凡的成就震撼全球。8月1日,特斯拉官方宣布了一个具有历史意义的消息——全球第1000万个电驱系统正式下线,标志着特斯拉在电动汽车核心技术的自主研发与规模化生产上迈出了坚实的一步,迎来了其发展历程中的首个“一千万”里程碑
    的头像 发表于 08-01 16:40 1114次阅读

    它人机器人与俄罗斯的AVIALIFT正式携手,达成里程碑式合作

    4月15日,它人机器人与俄罗斯的AVIALIFT正式携手,达成里程碑式合作。这次合作不仅将我们的机器人产品、尖端技术和优质服务带到了广袤的俄罗斯,更是它人机器人在国际舞台上的一大飞跃。
    的头像 发表于 04-17 09:26 559次阅读
    它人机器人与俄罗斯的AVIALIFT正式携手,<b class='flag-5'>达成</b><b class='flag-5'>里程碑</b>式合作

    百度地图宣布城市车道级导航取得里程碑突破

    近日,百度地图宣布其城市车道级导航取得里程碑突破,已率先覆盖全国超100城普通道路。
    的头像 发表于 01-09 17:28 1204次阅读
    百度地图宣布城市车道级导航取得<b class='flag-5'>里程碑</b>突破