视觉新范式Transformer之ViT的成功-电子发烧友网

这是一篇来自谷歌大脑的paper。这篇paper的主要成果是用Transformer[1]取代CNN，并证明了CNN不是必需的，甚至在大规模数据集预训练的基础上在一些benchmarks做到了SOTA，并且训练时使用的资源更少。

图像分块

要将图片分块是因为Transformer是用于NLP领域的，在NLP里面，Transformer的输入是一个序列，每个元素是一个word embedding。因此将Transformer用于图像时也要找出word的概念，于是就有了这篇paper的title：AN IMAGE IS WORTH 16X16 WORDS，将一张图片看成是16*16个“单词”。

inductive biases

在机器学习中，人们对算法做了各种的假设，这些假设就是inductive biases（归纳偏置），例如卷积神经网络就有很强的inductive biases。文中做了一个实验，在中等大小数据集训练时，精度会略逊色于ResNets。但是这个结果也是应该预料到的，因为Transformer缺少了CNN固有的一些inductive biases，比如平移不变性和局部性。所以当没有足够的数据用于训练时，你懂的。但是恰恰Transformer就强在这一点，由于Transformer运算效率更高，而且模型性能并没有因为数据量的增大而饱和，至少目前是这样的，就是说模型性能的上限很高，所以Transformer很适合训练大型的数据集。

ViT

在ViT中，模型只有Encoder的，没有Decoder，因为只是用于识别任务，不需要Decoder。

首先按照惯例，先把图像的patch映射成一个embedding，即图中的linear projection层。然后加上position embedding，这里的position是1D的，因为按照作者的说法是在2D上并没有性能上的提升。最后还要加上一个learnable classification token放在序列的前面，classification由MLP完成。

Hybrid Architecture。模型也可以是CNN和Transformer的混合，即Transformer的输入不是原图像的patch，而是经过CNN得到的feature map的patch。

实验结果

不同大小的ViT的参数量。

可以看到在预训练数据集很小的情况下ViT的效果并不好，但是好在随着预训练数据集越大时ViT的效果越好，最终超过ResNet。

BiT[2]是谷歌用JFT-300M（谷歌内部非公开数据集）训练的ResNet模型。Noisy Student[3]是谷歌提出借助半监督大大提升了imagenet性能的算法。可以看到，在JFT-300M预训练的情况下，ViT比ResNet好上不少，并且开销更小。

总结

ViT的成功我认为是以下几点：

1、self-attention比CNN更容易捕捉long-range的信息；

2、大量的数据，在视觉中CNN是人类实践中很成功的inductive biases，显然大量的数据是能战胜inductive biases的；

3、计算效率高，因为self-attention可以看作是矩阵运算，所以效率很高，容易训练大型的模型。

原文标题：视觉新范式Transformer之ViT

文章出处：【微信公众号：深度学习实战】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器视觉

机器视觉

+关注

关注
162

文章
4382

浏览量
120413
机器学习

机器学习

+关注

关注
66

文章
8423

浏览量
132744
Transforme

Transforme

+关注

关注
0

文章
12

浏览量
8795

原文标题：视觉新范式Transformer之ViT

文章出处：【微信号：gh_a204797f977b，微信公众号：深度学习实战】欢迎添加关注！文章转载请注明出处。

transformer专用ASIC芯片Sohu说明

2022年，我们打赌说transformer会统治世界。我们花了两年时间打造Sohu，这是世界上第一个用于transformer（ChatGPT中的“T”）的专用芯片。将transformer

发表于 01-06 09:13 •44次阅读

<b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

知行科技大模型研发体系初见效果

11月，知行科技作为共同第一作者提出的Strong Vision Transformers Could BeExcellent Teachers(ScaleKD)，以预训练ViT(视觉

发表于 12-27 09:38 •123次阅读

Transformer模型的具体应用

如果想在 AI 领域引领一轮新浪潮，就需要使用到 Transformer。

发表于 11-20 09:28 •467次阅读

<b class='flag-5'>Transformer</b>模型的具体应用

Transformer模型能够做什么

尽管名为 Transformer，但它们不是电视银幕上的变形金刚，也不是电线杆上垃圾桶大小的变压器。

发表于 11-20 09:27 •327次阅读

<b class='flag-5'>Transformer</b>模型能够做什么

使用ReMEmbR实现机器人推理与行动能力

视觉语言模型（VLM）通过将文本和图像投射到同一个嵌入空间，将基础大语言模型（LLM）强大的语言理解能力与视觉 transformer（ViT）的视

发表于 11-19 15:37 •278次阅读

Prophesee：基于EVS打造机器视觉新范式

电子发烧友网报道（文/吴子鹏）机器视觉起源于20世纪50年代。近几年，随着边缘智能需求爆发，机器视觉发展换挡提速。根据前瞻产业研究院的统计数据，2023年全球机器视觉市场规模约为130亿美元，预计

发表于 07-24 00:53 •2960次阅读

Transformer能代替图神经网络吗

Transformer作为一种在处理序列数据方面表现出色的深度学习模型，自其提出以来，已经在自然语言处理（NLP）、时间序列分析等领域取得了显著的成果。然而，关于Transformer是否能完全代替图神经网络（GNN）的问题，需要从多个维度进行深入探讨。

发表于 07-12 14:07 •472次阅读

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transformer模型由谷歌在2017年提出，并首次应用于神经机器翻译

发表于 07-10 11:48 •1801次阅读

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型，包括模型的结构、训

发表于 07-02 11:41 •1668次阅读

jlink为什么识别不了STM32H743VIT6？

最近调ST的STM32H743VIT6这个型号的芯片，碰到一个麻烦的问题，jlink识别不了芯片，导致一直无法下载程序，换了几个JLINK也是不行。请问一下STM32H7系列烧写与调试对JLINK有

发表于 04-15 07:20

视觉Transformer基本原理及目标检测应用

视觉Transformer的一般结构如图2所示，包括编码器和解码器两部分，其中编码器每一层包括一个多头自注意力模块（self-attention）和一个位置前馈神经网络(FFN)。

发表于 04-03 10:32 •3542次阅读

STM32F427VIT6支持HyperBus或者Octal xSPI接口的PSRAM吗？

STM32F427VIT6支持HyperBus或者Octal xSPI接口的PSRAM吗

发表于 03-20 07:32

STM32H743VIT6可以用NUCLEO-H743ZI板调试吗？

问题1：最近要选择STM32H743VIT6这款芯片做实验项目，想要选择NUCLEO-H743ZI板子调试，但是板子mcu跟选型的mcu不完全一致，引脚数量也不一样，担心买回来调试不方便问题2：板子有NUCLEO-H743ZI和NUCLEO-H743ZI2 二种型号，比较推荐哪一种？

发表于 03-18 07:17

复盘与分析：Sora是如何成功的？

从技术路线看，依旧遵从LLM范式“大力出奇迹”，通过patches向量化与transformer架构结合，使得训练数据能够使用大小、尺寸、分辨率不同的视频，能够让模型学习到视频的规律乃至世界的规律；使用GPT生成prompt，在训练和推理过程中解决了模态之间的对齐问题，大

发表于 02-25 16:44 •597次阅读

基于Transformer模型的压缩方法

基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用，特别是在自然语言处理（NLP）和计算机视觉（CV）领域。

发表于 02-22 16:27 •666次阅读