0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

视觉新范式Transformer之ViT的成功

深度学习实战 来源:深度学习实战 作者:深度学习实战 2021-02-24 09:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这是一篇来自谷歌大脑的paper。这篇paper的主要成果是用Transformer[1]取代CNN,并证明了CNN不是必需的,甚至在大规模数据集预训练的基础上在一些benchmarks做到了SOTA,并且训练时使用的资源更少。

图像分块

要将图片分块是因为Transformer是用于NLP领域的,在NLP里面,Transformer的输入是一个序列,每个元素是一个word embedding。因此将Transformer用于图像时也要找出word的概念,于是就有了这篇paper的title:AN IMAGE IS WORTH 16X16 WORDS,将一张图片看成是16*16个“单词”。

inductive biases

机器学习中,人们对算法做了各种的假设,这些假设就是inductive biases(归纳偏置),例如卷积神经网络就有很强的inductive biases。文中做了一个实验,在中等大小数据集训练时,精度会略逊色于ResNets。但是这个结果也是应该预料到的,因为Transformer缺少了CNN固有的一些inductive biases,比如平移不变性和局部性。所以当没有足够的数据用于训练时,你懂的。但是恰恰Transformer就强在这一点,由于Transformer运算效率更高,而且模型性能并没有因为数据量的增大而饱和,至少目前是这样的,就是说模型性能的上限很高,所以Transformer很适合训练大型的数据集。

ViT

20d8869e-74f8-11eb-8b86-12bb97331649.png

在ViT中,模型只有Encoder的,没有Decoder,因为只是用于识别任务,不需要Decoder。

首先按照惯例,先把图像的patch映射成一个embedding,即图中的linear projection层。然后加上position embedding,这里的position是1D的,因为按照作者的说法是在2D上并没有性能上的提升。最后还要加上一个learnable classification token放在序列的前面,classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合,即Transformer的输入不是原图像的patch,而是经过CNN得到的feature map的patch。

实验结果

211198d0-74f8-11eb-8b86-12bb97331649.png

不同大小的ViT的参数量。

2159b7b4-74f8-11eb-8b86-12bb97331649.png

可以看到在预训练数据集很小的情况下ViT的效果并不好,但是好在随着预训练数据集越大时ViT的效果越好,最终超过ResNet。

21979b1a-74f8-11eb-8b86-12bb97331649.png

BiT[2]是谷歌用JFT-300M(谷歌内部非公开数据集)训练的ResNet模型。Noisy Student[3]是谷歌提出借助半监督大大提升了imagenet性能的算法。可以看到,在JFT-300M预训练的情况下,ViT比ResNet好上不少,并且开销更小。

总结

ViT的成功我认为是以下几点:

1、self-attention比CNN更容易捕捉long-range的信息;

2、大量的数据,在视觉中CNN是人类实践中很成功的inductive biases,显然大量的数据是能战胜inductive biases的;

3、计算效率高,因为self-attention可以看作是矩阵运算,所以效率很高,容易训练大型的模型。

原文标题:视觉新范式Transformer之ViT

文章出处:【微信公众号:深度学习实战】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器视觉
    +关注

    关注

    166

    文章

    4852

    浏览量

    126759
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137421
  • Transforme
    +关注

    关注

    0

    文章

    12

    浏览量

    8977

原文标题:视觉新范式Transformer之ViT

文章出处:【微信号:gh_a204797f977b,微信公众号:深度学习实战】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索Alvium 1500 C-120m:嵌入式视觉的理想

    探索Alvium 1500 C-120m:嵌入式视觉的理想选 在嵌入式视觉领域,一款性能卓越、功能丰富的相机模块对于项目的成功至关重要。今天,我们就来深入了解一下 Allied Vi
    的头像 发表于 05-09 14:55 105次阅读

    混合MI-SSVEP是否真的是更优的范式

    HUIYING稳态视觉诱发电位(SSVEP)范式概述稳态视觉诱发电位是一种基于视觉刺激的脑机接口范式,当用户注视以固定频率(如6.67Hz或
    的头像 发表于 04-12 16:21 3304次阅读
    混合MI-SSVEP是否真的是更优的<b class='flag-5'>范式</b>?

    编码调制视觉诱发电位cVEP是否能解决疲劳的问题?

    HUIYINGSSVEP概述稳态视觉诱发电位(Steady-StateVisualEvokedPotential,SSVEP)是一种基于周期性视觉刺激的脑机接口(BCI)范式。当用户注视以固定频率
    的头像 发表于 04-10 18:04 155次阅读
    编码调制<b class='flag-5'>视觉</b>诱发电位cVEP是否能解决疲劳的问题?

    哈尔滨工业大学与鸿微科技座谈会成功举办

    2月12日,“物理人工智能驱动材料研发新范式—鸿微材料垂类大模型研发”座谈会在哈尔滨工业大学圆满举办。哈工大副校长刘挺教授、鸿微科技董事长曹荣根携校企双方核心力量齐聚一堂,多院系专家线上线下同频
    的头像 发表于 02-25 16:03 534次阅读

    Transformer 入门:从零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 记忆技巧:想象沿着对角线折叠纸张。 在 Transformer 中的应用:计算注意力分数
    发表于 02-10 16:33

    Transformer如何让自动驾驶大模型获得思考能力?

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer在自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4481次阅读

    告别漏检与低效,维视智造用2D+3D视觉攻克3C连接器质检难题

    本期将结合近期成功交付的实战案例,详细解读智能视觉检测方案在 3C 电子连接器生产质检中的落地实践,为企业实现视觉智能化升级提供可落地的参考范式
    的头像 发表于 12-24 17:40 812次阅读

    润和软件旗下捷科入编2025“人工智能+”行业生态范式案例集

    (以下简称“捷科”)自主研发的“JettoAI测试智能助手平台”凭借与金融业务场景的深度融合及卓越的AI技术创新能力,成功入编“2025人工智能+行业生态范式企业篇”,成为推动金融行业数字化转型的标杆性范式产品。
    的头像 发表于 12-11 11:19 826次阅读
    润和软件旗下捷科入编2025“人工智能+”行业生态<b class='flag-5'>范式</b>案例集

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时可以将这些重要信息有效地关联起来。
    的头像 发表于 11-19 18:17 2543次阅读

    VIT测试的范式思考与建议#汽车电子电气 #车载网络 #实车测试

    车载网络
    北汇信息POLELINK
    发布于 :2025年07月07日 09:25:44

    使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC电机控制软件时,找不到对应型号怎么解决?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC电机控制软件时,找不到对应型号只有745,如何解决,是否可以相似信号替代(如果可以的话有没有说明手册),或者有没有其他手段解决。
    发表于 06-17 06:17

    MotorControl Workbench_6.3.2配置单片机时找不到STM32H743VIT6E,如何解决?

    官方、各位大佬,在使用MotorControl Workbench_6.3.2配置STM32H743VIT6E的FOC电机控制软件时,找不到对应型号只有745,如何解决,是否可以相似信号替代(如果可以的话有没有说明手册),或者有没有其他手段解决。
    发表于 06-16 07:03

    STM32H743VIT6用QSPI的接口,想换个CS的管脚,但芯片内置是绑死的,这个要怎么处理?

    关于STM32H743VIT6 在用QSPI的接口,想换个CS的管脚,但芯片内置是绑死的,这个要怎么处理,用个其他的IO口做片选
    发表于 06-11 08:02

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 1285次阅读
    <b class='flag-5'>Transformer</b>架构中编码器的工作流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历一场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 1517次阅读
    <b class='flag-5'>Transformer</b>架构概述