0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

开源模型OpenCLIP达成ImageNet里程碑成就!

CVer 来源:新智元 2023-02-15 09:50 次阅读

【导读】开源模型OpenCLIP达成ImageNet里程碑成就!

‍ ‍ 虽然ImageNet早已完成历史使命,但其在计算机视觉领域仍然是一个关键的数据集。 2016年,在ImageNet上训练后的分类模型,sota准确率仍然还不到80%;时至今日,仅靠大规模预训练模型的zero-shot泛化就能达到80.1%的准确率。

602ac9f6-ac78-11ed-bfe3-dac502259ad0.png

最近LAION使用开源代码OpenCLIP框架训练了一个全新的 ViT-G/14 CLIP 模型,在 ImageNet数据集上,原版OpenAI CLIP的准确率只有75.4%,而OpenCLIP实现了80.1% 的zero-shot准确率,在 MS COCO 上实现了74.9% 的zero-shot图像检索(Recall@5),这也是目前性能最强的开源 CLIP 模型。

604edec2-ac78-11ed-bfe3-dac502259ad0.png

605e542e-ac78-11ed-bfe3-dac502259ad0.png

LAION全称为Large-scale Artificial Intelligence Open Network,是一家非营利组织,其成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%免费。 感兴趣的小伙伴可以把手头的CLIP模型更新版本了!

60774466-ac78-11ed-bfe3-dac502259ad0.png

模型地址:https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k

OpenCLIP模型在各个数据集上具体的性能如下表所示。

608c89de-ac78-11ed-bfe3-dac502259ad0.png

60a31956-ac78-11ed-bfe3-dac502259ad0.png

Zero-shot能力

一般来说,计算机视觉(CV)模型在各个任务上的sota性能都是基于特定领域的训练数据,无法泛化到其他领域或任务中,导致对视觉世界的通用属性理解有限。 泛化问题对于那些缺少大量训练数据的领域尤其重要。 理想情况下,CV模型应该学会图像的语义内容,而非过度关注训练集中的特定标签。比如对于狗的图像,模型应该能够理解图像中有一只狗,更进一步来理解背景中有树、时间是白天、狗在草地上等等。 但当下采用「分类训练」得到的结果与预期正好相反,模型学习将狗的内部表征推入相同的「狗向量空间」,将猫推入相同的「猫向量空间」,所有的问题的答案都是二元,即图像是否能够与一个类别标签对齐。

60b7103c-ac78-11ed-bfe3-dac502259ad0.png

对新任务重新训练一个分类模型也是一种方案,但是训练本身需要大量的时间和资金投入来收集分类数据集以及训练模型。 幸运的是,OpenAI 的CLIP模型是一个非常灵活的分类模型,通常不需要重新训练即可用于新的分类任务中。

CLIP为何能Zero-Shot

对比语言-图像预训练(CLIP, Contrastive Language-Image Pretraining)是 OpenAI 于2021年发布的一个主要基于Transformer的模型。

CLIP 由两个模型组成,一个Transformer编码器用于将文本转换为embedding,以及一个视觉Transformer(ViT)用于对图像进行编码。

60c8f5e0-ac78-11ed-bfe3-dac502259ad0.png

CLIP内的文本和图像模型在预训练期间都进行了优化,以在向量空间中对齐相似的文本和图像。在训练过程中,将数据中的图像-文本对在向量空间中将输出向量推得更近,同时分离不属于一对的图像、文本向量。

60e06090-ac78-11ed-bfe3-dac502259ad0.png

CLIP与一般的分类模型之间有几个区别:

首先,OpenAI 使用从互联网上爬取下来的包含4亿文本-图像对的超大规模数据集进行训练,其好处在于:

1. CLIP的训练只需要「图像-文本对」而不需要特定的类标签,而这种类型的数据在当今以社交媒体为中心的网络世界中非常丰富。

2. 大型数据集意味着 CLIP 可以对图像中的通用文本概念进行理解的能力。

3. 文本描述(text descriptor)中往往包含图像中的各种特征,而不只是一个类别特征,也就是说可以建立一个更全面的图像和文本表征。

上述优势也是CLIP其建立Zero-shot能力的关键因素,论文的作者还对比了在ImageNet上专门训练的 ResNet-101模型和 CLIP模型,将其应用于从ImageNet 派生的其他数据集,下图为性能对比。

6113b2b0-ac78-11ed-bfe3-dac502259ad0.png

可以看到,尽管 ResNet-101是在ImageNet上进行训练的,但它在相似数据集上的性能要比 CLIP 在相同任务上的性能差得多。

在将 ResNet 模型应用于其他领域时,一个常用的方法是「linear probe」(线性探测),即将ResNet模型最后几层所学到的特性输入到一个线性分类器中,然后针对特定的数据集进行微调。

在CLIP论文中,线性探测ResNet-50与zero-shot的CLIP 进行了对比,结论是在相同的场景中,zero-shot CLIP 在多个任务中的性能都优于在ResNet-50中的线性探测。

61470a02-ac78-11ed-bfe3-dac502259ad0.png

不过值得注意的是,当给定更多的训练样本时,Zero-shot并没有优于线性探测。

用CLIP做Zero-shot分类

从上面的描述中可以知道,图像和文本编码器可以创建一个512维的向量,将输入的图像和文本输入映射到相同的向量空间。

用CLIP做Zero-shot分类也就是把类别信息放入到文本句子中。

举个例子,输入一张图像,想要判断其类别为汽车、鸟还是猫,就可以创建三个文本串来表示类别:

T1代表车:a photo of a car

T2代表鸟:a photo of a bird

T3代表猫:a photo of a cat

将类别描述输入到文本编码器中,就可以得到可以代表类别的向量。

假设输入的是一张猫的照片,用 ViT 模型对其进行编码获取图像向量后,将其与类别向量计算余弦距离作为相似度,如果与T3的相似度最高,就代表图像的类别属于猫。

616234bc-ac78-11ed-bfe3-dac502259ad0.png

可以看到,类别标签并不是一个简单的词,而是基于模板「a photo of a {label}」的格式重新改写为一个句子,从而可以扩展到不受训练限制的类别预测。

实验中,使用该prompt模板在ImageNet的分类准确性上提高了1.3个百分点,但prompt模板并不总是能提高性能,在实际使用中需要根据不同的数据集进行测试。

Python实现

想要快速使用CLIP做zero-shot分类也十分容易,作者选取了Hugging Face中的frgfm/imagenette数据集作为演示,该数据集包含10个标签,且全部保存为整数值。

617bb766-ac78-11ed-bfe3-dac502259ad0.png

使用 CLIP进行分类,需要将整数值标签转换为对应的文本内容。

618dfa16-ac78-11ed-bfe3-dac502259ad0.png

在直接将标签和照片进行相似度计算前,需要初始化 CLIP模型,可以使用通过 Hugging Face transformers找到的 CLIP 实现。

619facd4-ac78-11ed-bfe3-dac502259ad0.png

文本transformer无法直接读取文本,而是需要一组称为token ID(或input _ IDs)的整数值,其中每个唯一的整数表示一个word或sub-word(即token)。

61b1778e-ac78-11ed-bfe3-dac502259ad0.png

将转换后的tensor输入到文本transformer中可以获取标签的文本embedding

61c7daf6-ac78-11ed-bfe3-dac502259ad0.png

注意,目前CLIP输出的向量还没有经过归一化(normalize),点乘后获取的相似性结果是不准确的。

61d8e5ee-ac78-11ed-bfe3-dac502259ad0.png

下面就可以选择一个数据集中的图像作测试,经过相同的处理过程后获取到图像向量。

61ea7fc0-ac78-11ed-bfe3-dac502259ad0.png

将图像转换为尺寸为(1, 3, 224, 224)向量后,输入到模型中即可获得embedding

62091f20-ac78-11ed-bfe3-dac502259ad0.png

下一步就是计算图像embedding和数据集中的十个标签文本embedding之间的点积相似度,得分最高的即是预测的类别。

621be902-ac78-11ed-bfe3-dac502259ad0.png

模型给出的结果为cassette player(盒式磁带播放器),在整个数据集再重复运行一遍后,可以得到准确率为98.7%

622f0280-ac78-11ed-bfe3-dac502259ad0.png

除了Zero-shot分类,多模态搜索、目标检测、 生成式模型如OpenAI 的 Dall-E 和 Stable disusion,CLIP打开了计算机视觉的新大门。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1705

    浏览量

    46492
  • 数据集
    +关注

    关注

    4

    文章

    1221

    浏览量

    25214
  • Clip
    +关注

    关注

    0

    文章

    32

    浏览量

    6934

原文标题:ImageNet零样本准确率首次超过80%!OpenCLIP:性能最强的开源CLIP模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
    相关推荐
    热点推荐

    直线模组新技术里程碑

    杆皮带传动方式的直线模组,从技术的领先性在直线模组行业提上了一个新的里程碑。JFM超长行程直线模组在TFT、LED、OLED、AMOLED超大彩色液晶屏、显示屏、背光屏的搬运包装行业应用画上了完美
    发表于 08-03 10:42

    重要的里程碑:售出了10亿颗点火IGBT

    我们为已到达一个重要的里程碑而自豪– 我们售出了第10亿颗点火IGBT!从20世纪90年代开始,油价上涨,关于汽车排放量的担忧增长。点火应用的顶尖专家也是我们的首席应用工程师Jack
    发表于 10-22 09:07

    敦泰科技与TSMC达成1000万颗触控芯片出货里程碑

    敦泰科技与TSMC近日共同宣布,由敦泰科技设计并委托TSMC生产制造的触控芯片(Touch-Panel Controller IC)已突破总出货一千万颗的里程碑
    发表于 09-24 01:24 1634次阅读

    3D CAD模型程序发展里程碑:更完善、更流畅!

    CAD模型。此次对3D CAD模型搜索功能的提升,也是RS Components公司3D CAD模型程序发展史上的一个重要的里程碑
    发表于 01-22 09:03 1123次阅读

    Naeem Hadiq:分享里程碑和灵感

    Naeem Hadiq分享了里程碑和灵感。
    的头像 发表于 05-31 11:13 1550次阅读

    Velodyne : 出货30000台,5亿美元销售里程碑

    随着Velodyne达成其3D视觉技术的销售里程碑,Hall正在拓展更经济的改进型激光雷达传感器,用于迈向无人驾驶车辆的高级驾驶辅助系统(ADAS)。
    的头像 发表于 04-03 11:34 3094次阅读

    Xilinx 创下新里程碑,Versal ACAP 开始出货了!

    Xilinx 创下新里程碑,Versal ACAP 开始出货了!
    的头像 发表于 07-02 12:04 1901次阅读

    我国首次火星探测器天问一号达成里程碑

    据媒体报道,截至2020年11月17日凌晨,我国首次火星探测任务天问一号探测器达成里程碑,已在轨飞行116天,飞行里程超过3亿千米,距离地球约6380万千米。
    的头像 发表于 11-17 09:19 2891次阅读

    了解Linux on IBM Z的重大里程碑

    如今,IBM Z 拥抱 Linux 和开源已超过 20年,成为企业迈向混合云平台的核心。让我们一起跟随时光快进,了解 Linux on IBM Z 的重大里程碑
    的头像 发表于 11-18 11:41 2454次阅读

    PingCAP创造全球数据库历史新的里程碑

    企业级开源分布式数据库厂商PingCAP宣布完成2.7亿美元的 D 轮融资,创造全球数据库历史新的里程碑
    的头像 发表于 11-30 11:41 3090次阅读

    开源模型OpenCLIP达成ImageNet里程碑成就

    LAION全称为Large-scale Artificial Intelligence Open Network,是一家非营利组织,其成员来自世界各地,旨在向公众提供大规模机器学习模型、数据集和相关代码。他们声称自己是真正的Open AI,100%非盈利且100%免费。
    的头像 发表于 02-07 13:59 1533次阅读

    它人机器人与俄罗斯的AVIALIFT正式携手,达成里程碑式合作

    4月15日,它人机器人与俄罗斯的AVIALIFT正式携手,达成里程碑式合作。这次合作不仅将我们的机器人产品、尖端技术和优质服务带到了广袤的俄罗斯,更是它人机器人在国际舞台上的一大飞跃。
    的头像 发表于 04-17 09:26 780次阅读
    它人机器人与俄罗斯的AVIALIFT正式携手,<b class='flag-5'>达成</b><b class='flag-5'>里程碑</b>式合作

    特斯拉里程碑达成:第1亿颗4680电池震撼问世

    特斯拉的4680电池技术再次跨越重要里程碑,公司于9月15日欣然宣布,其第1亿颗创新性的4680电池已成功下线,这一成就标志着特斯拉在电池制造领域的飞速进展。特斯拉首席执行官埃隆·马斯克通过社交媒体向辛勤工作的电池团队致以热烈祝贺,彰显了公司对这一
    的头像 发表于 09-18 15:30 1576次阅读

    黑芝麻智能与Nullmax达成重要合作里程碑

    近日,自动驾驶技术领域的两大领先企业——黑芝麻智能与Nullmax宣布达成了一项重要的合作里程碑。双方基于黑芝麻智能的武当C1200家族芯片,共同推出了BEV无图方案,并成功实现了NOA领航辅助、记忆行车及记忆泊车等高阶智能驾驶功能。
    的头像 发表于 10-10 18:15 949次阅读

    比亚迪达成新能源汽车下线千万辆里程碑

    近日,比亚迪迎来了其发展历程中的一个重要里程碑——第1000万辆新能源汽车正式下线。这一历史性的时刻标志着比亚迪在新能源汽车领域的卓越成就和持续创新。 此次下线的车型为腾势Z9,一款定位于D级市场
    的头像 发表于 11-19 14:16 774次阅读

    ElfBoard技术贴|如何调整eMMC存储分区

    ELF 2开发板基于瑞芯微RK3588高性能处理器设计,拥有四核ARM Cortex-A76与四核ARM Cortex-A55的CPU架构,主频高达2.4GHz,内置6TOPS算力的NPU,这一设计让它能够轻松驾驭多种深度学习框架,高效处理各类复杂的AI任务。

    ElfBoard
    5小时前
    222

    米尔基于MYD-YG2LX系统启动时间优化应用笔记

    1.概述MYD-YG2LX采用瑞萨RZ/G2L作为核心处理器,该处理器搭载双核Cortex-A55@1.2GHz+Cortex-M33@200MHz处理器,其内部集成高性能3D加速引擎Mail-G31GPU(500MHz)和视频处理单元(支持H.264硬件编解码),16位的DDR4-1600/DDR3L-1333内存控制器、千兆以太网控制器、USB、CAN、

    米尔电子
    11小时前
    205

    运放技术——基本电路分析

    虚短和虚断的概念由于运放的电压放大倍数很大,一般通用型运算放大器的开环电压放大倍数都在80dB以上。而运放的输出电压是有限的,一般在10V~14V。因此运放的差模输入电压不足1mV,两输入端近似等电位,相当于“短路”。开环电压放大倍数越大,两输入端的电位越接近相等。“虚短”是指在分析运算放大器处于线性状态时,可把两输入端视为等电位,这一特性称为虚假短路,简称

    张飞实战电子官方
    1天前
    255

    飞凌嵌入式携手中移物联,谱写全国产化方案新生态

    4月22日,飞凌嵌入式“2025嵌入式及边缘AI技术论坛”在深圳成功举办。中移物联网有限公司(以下简称“中移物联”)携OneOS操作系统与飞凌嵌入式共同推出的工业级核心板亮相会议展区,操作系统产品部高级专家严镭受邀作《OneOS工业操作系统——助力国产化智能制造》主题演讲。

    飞凌嵌入式
    1天前
    556

    ATA-2022B高压放大器在螺栓松动检测中的应用

    实验名称:ATA-2022B高压放大器在螺栓松动检测中的应用实验方向:超声检测实验设备:ATA-2022B高压放大器、函数信号发生器,压电陶瓷片,数据采集卡,示波器,PC等实验内容:本研究基于振动声调制的螺栓松动检测方法,其中低频泵浦波采用单频信号,而高频探测波采用扫频信号,利用泵浦波和探测波在接触面的振动声调制响应对螺栓的松动程度进行检测。通过螺栓松动检测

    Aigtek安泰电子
    2天前
    967

    MOS管驱动电路——电机干扰与防护处理

    此电路分主电路(完成功能)和保护功能电路。MOS管驱动相关知识:1、跟双极性晶体管相比,一般认为使MOS管导通不需要电流,只要GS电压(Vbe类似)高于一定的值,就可以了。MOS管和晶体管向比较c,b,e—–>d(漏),g(栅),s(源)。2、NMOS的特性,Vgs大于一定的值就会导通,适合用于源极接地时的情况(低端驱动),只要栅极电压达到4V或10V就可以

    张飞实战电子官方
    2天前
    310

    压敏(MOV)在电机上的应用剖析

    一前言有刷直流电机是一种较为常见的直流电机。它的主要特点包括:1.结构相对简单,由定子、转子、电刷和换向器等组成;2.通过电刷与换向器的接触来实现电流的换向,从而使电枢绕组中的电流方向周期性改变,保证电机持续运转;3.具有调速性能较好等优点,可以通过改变电压等方式较为方便地调节转速。有刷直流电机在许多领域都有应用,比如一些电动工具、玩具、小型机械等。但它也存

    深圳市韬略科技有限公司
    2天前
    215

    硬件原理图学习笔记

    这一个星期认真学习了硬件原理图的知识,做了一些笔记,方便以后查找。硬件原理图分为三类1.管脚类(gpio)和门电路类输入输出引脚,上拉电阻,三极管与门,或门,非门上拉电阻:正向标志作用,给悬空的引脚一个确定的状态三极管:反向三极管(gpio输出高电平,NP两端导通,被控制端导通,电压为0)->NPN正向三极管(gpio输出低电平,PN两端导通,被控制端导通,

    张飞实战电子官方
    04-30 18:40
    399

    TurMass™ vs LoRa:无线通讯模块的革命性突破

    TurMass™凭借其高传输速率、强大并发能力、双向传输、超强抗干扰能力、超远传输距离、全国产技术、灵活组网方案以及便捷开发等八大优势,在无线通讯领域展现出强大的竞争力。

    道生物联
    2天前
    690

    RZT2H CR52双核BOOT流程和例程代码分析

    RZT2H是多核处理器,启动时,需要一个“主核”先启动,然后主核根据规则,加载和启动其他内核。本文以T2H内部的CR52双核为例,说明T2H多核启动流程。

    RA生态工作室
    04-03 17:14
    2k

    干簧继电器在RF信号衰减中的应用与优势

    在电子测试领域,RF(射频)评估是不可或缺的一部分。无论是研发阶段的性能测试,还是生产环节的质量检测,RF测试设备都扮演着关键角色。然而,要实现精准的RF评估,测试设备需要一种特殊的电路——衰减电路。这些电路的作用是调整RF信号的强度,以便测试设备能够准确地评估RF组件和RF电路的各个方面。衰减器的挑战衰减器的核心功能是校准RF信号的强度。为了实现这一点,衰

    斯丹麦德电子
    04-30 11:33
    700

    ElfBoard嵌入式教育科普|ADC接口全面解析

    当代信息技术体系中,嵌入式系统接口作为数据交互的核心基础设施,构成了设备互联的神经中枢。基于标准化通信协议与接口规范的技术架构,实现了异构设备间的高效数据交换与智能化协同作业。本文选取模数转换接口ADC作为技术解析切入点,通过系统阐释其工作机理、性能特征及重要参数,为嵌入式学习者爱好者构建全维度接口技术认知框架。

    ElfBoard
    04-30 09:34
    384

    深入理解C语言:C语言循环控制

    在C语言编程中,循环结构是至关重要的,它可以让程序重复执行特定的代码块,从而提高编程效率。然而,为了避免程序进入无限循环,C语言提供了多种循环控制语句,如break、continue和goto,用于改变程序的执行流程,使代码更加灵活和可控。本文将详细介绍这些语句的作用及其应用场景,并通过示例代码进行说明。Part.1break语句C语言中break语句有两种

    合众恒跃
    04-29 18:49
    494

    第 21 届(顺德)家电电源与智能控制技术研讨会圆满落幕--其利天下斩获颇丰

    2025年4月25日,其利天下应大比特之邀出席第21届(顺德)家电电源与智能控制技术研讨会,已圆满落幕。一、演讲回顾我司研发总监冯建武先生在研讨会上发表了主题为《重新定义风扇驱动:一套算法兼容百种电机的有效磁链观测器方案》的演讲,介绍了我司研发自适应技术算法(简称),该方案搭载有效磁链观测器,适配百种电机类型,结合FOC算法可实现免调参稳定启动、低速静音控制

    其利天下技术
    04-28 19:29
    1.4k

    来自资深工程师对ELF 2开发板的产品测评

    来自资深工程师对ELF 2开发板的使用测评

    ElfBoard
    04-28 15:03
    527