0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Transformer的兴起:提高实时视觉处理的准确度

lPCU_elecfans 来源:电子发烧友网 2023-01-12 11:01 次阅读

2017 年在 Google的一篇研究论文中首次提出了Transformer模型,它最初是为自然语言处理 (NLP) 任务而设计的。最近,研究人员将Transformer应用在了视觉应用领域(在过去十年中由卷积神经网络 (CNNs) 占据主导地位),并获得了有趣的结果。事实证明,Transformer对图像分类和物体检测等视觉任务的适应性令人惊讶。这些结果为Transformer赢得了在视觉任务中与 CNN 比肩的地位。这些任务旨在提高机器对环境的理解,以用于情境感知视频推理等未来应用。

2012 年,名为 AlexNet 的卷积神经网络(CNN)赢得了 ImageNet 大规模视觉识别挑战赛 (ILSVRC),这是一项年度计算机视觉竞赛。任务是让您的机器学习并“分类”1000 个不同的图像(基于 ImageNet 数据集)。AlexNet 实现了 15.3% 的 top-5 错误率。往届的获胜者是基于传统编程模型,实现的 top-5 错误率大约是 26%(见图 1)。在这之后,CNN 一直占据统治地位。2016 年和 2017 年,获胜的 CNN 实现了比人类更高的准确度。大多数参与者实现了超过 95% 的准确度,促使 ImageNet 在 2018 年推出一项难度更高的全新挑战。CNN 在 ILSVRC 挑战赛中的统治地位推动了人们大量研究如何将 CNN 应用于实时视觉应用。在准确度不断提高的同时,ResNet 和 EfficientNet 分别于 2015 年和 2020 年将效率提升了 10 倍。实时视觉应用不仅需要准确度,还需要更高的性能(推理/秒或每秒帧数 (fps))、缩小模型尺寸(提高带宽),以及功率和面积效率。

903444dc-918a-11ed-bfe3-dac502259ad0.png

图 1:ILSVRC 结果凸显了 AlexNet(一种卷积神经网络)带来了显著提高的视觉分类准确度。

分类是更复杂、更有用的视觉应用的基石。这些视觉应用包括对象检测(在二维图像中找到对象的位置)、语义分割(对图像中的每个像素进行分组/标记)和全景分割(识别对象位置以及对每个对象中的每个像素进行标记/分组)。2017 年 Google Brain 的论文中首次介绍的Transformer旨在改进递归神经网络 (RNN) 和长短时记忆 (LSTM),用于翻译、问答和对话式 AI 等 NLP 任务。RNN 和 LSTM 已用于处理顺序数据(即数字化语言和语音),但其架构不易并行化,因此通常具有非常有限的带宽,难以训练。Transformer的结构与 RNN 和 LSTM 相比具有几个优势。与必须按顺序读取一串文本的 RNN 和 LSTM 不同,Transformer明显更易并行化,并且可以同时以完整的单词顺序读取,从而更好地学习文本字符串中单词之间的上下文关系。

2018年底,谷歌提出了预训练模型双向编码表征Transformer(BERT),其在多项NLP任务上均取得了突破性的进展,大受欢迎,以至于被纳入 MLCommons 的 MLPerf 神经网络推理基准测试套件中。除了准确度高之外,Transformer还更容易被训练,使大型Transformer成为可能。MTM、GPT-3、T5、ALBERT、RoBERTa、T5、Switch AS 只是处理 NLP 任务的一些大型转换器。由 OpenAI 于 2020 年推出的生成预训练Transformer3 (GPT-3) 使用深度学习来生成类似人类的文本,准确度很高,以至于很难判定该文本是否由人类编写。

像 BERT 这样的Transformer可以成功地应用于其他应用领域,并具有极具前景的嵌入式使用效果。可以在广泛的数据上训练并应用于各种应用的 AI 模型被称为基础模型。在其中的视觉领域,Transformer取得了令人惊叹的成就。

应用于视觉的Transformer

2021 年发生了一些非凡的事情。Google Brain 团队将其Transformer模型应用于图像分类。一连串单词和二维图像之间存在很大差异,但 Google Brain 团队将图像切成小块,将这些小块图像中的像素放入矢量中,并将矢量馈送到Transformer中。结果令人惊讶。在不对模型进行任何修改的情况下,Transformer在分类方面的准确度优于最先进的 CNN。虽然准确度不是实时视觉应用的唯一指标(功率、成本、面积)和推理/秒也很重要),但这在视觉领域中堪称一项重大成果。

905ac83c-918a-11ed-bfe3-dac502259ad0.png

图 2:Transformer和 CNN 结构对比

比较 CNN 和Transformer对了解其类似结构很有帮助。在图 2 中,Transformer的结构由图像左侧的方框组成。为了进行比较,我们使用与 ResNet 中发现的结构类似的典型 CNN 结构来绘制 CNN 的类似结构。ResNet 是具有逐元素加法的 1x1 卷积。我们发现Transformer的前馈部分在功能上与 CNN 的 1x1 卷积相同。这些是矩阵乘法运算,可在特征图中的每个点上应用线性转换。

Transformer和 CNN 之间的区别在于两者如何混合来自相邻像素的信息。这发生在Transformer的多头注意力和卷积网络的 3x3 卷积中。对于CNN,混合的信息基于每个像素的固定空间位置,如图 3 中所示。对于 3x3 卷积,使用相邻像素(中心像素周围的九个像素)计算加权和。

9076490e-918a-11ed-bfe3-dac502259ad0.png

图 3:说明 CNN 的卷积和Transformer的注意力网络在混合其他令牌/像素的特征方面有何差异。

Transformer的注意力机制不仅基于位置,还基于学习属性来混合数据。在训练期间,Transformer可以学习关注其他像素。注意力网络具有更强的学习和表达更复杂关系的能力。

推出视觉Transformer转换器和偏移窗口Transformer

专门用于视觉任务的新型Transformer正在兴起。专门从事图像分类的视觉Transformer (ViT) 现在正在准确度方面击败 CNN(尽管要实现这种准确度,ViT需要用非常大的数据集进行训练)。ViT 还需要更多的计算,这会降低其 fps 性能。

Transformer也正在应用于对象检测和语义分割。Swin(偏移窗口)Transformer为对象检测 (COCO) 和语义分割 (ADE20K) 提供了最先进的准确度。虽然 CNN 通常应用于静态图像,但由于对以前或将来的帧不了解,转换器可以应用于视频帧。SWIN 的变体可直接应用于视频,用于动作分类等用途。将Transformer的注意力分别应用于时间和空间,为 Kinetics-400 和 Kinetics-600 动作分类基准测试提供了最先进的结果。

Apple 于 2022 年初推出的 MobileViT(图 4)提供了Transformer和CNN的有趣组合。MobileViT 结合了Transformer和 CNN 功能,为针对移动应用程序的视觉分类创建了轻量级模型。与仅使用 CNN 的 MobileNet 相比,这种Transformer和CNN的组合使相同尺寸的模型(6M 系数)的准确度提高了 3%。尽管 MobileViT 的性能优于 MobileNet,但它仍然慢于当今支持 CNN 但没有针对Transformer进行优化的手机上的 CNN 实现。要想利用Transformer的优势,未来的视觉 AI 加速器将需要更好的Transformer支持。

908a50a2-918a-11ed-bfe3-dac502259ad0.png

图 4:MobileViT:轻量、通用和移动友好型视觉Transformer(图片来源:https://arxiv.org/abs/2110.02178)

尽管Transformer在视觉任务方面取得了成功,但卷积网络不太可能很快消失。这两种方法之间仍然存在权衡,Transformer具有更高的准确度,但 fps 性能低得多,需要更多的计算和数据移动。为了规避两者的弱点,将Transformer和 CNN 相结合可以产生具有巨大前景的灵活解决方案。

Transformer的实现尽管在架构上存在相似之处,但无法让专门为 CNN 设计的加速器有效地执行Transformer。至少需要考虑架构增强,以处理注意力机制。

新思科技 的 ARC NPX6 NPU IP 是 AI 加速器的一个例子,该加速器旨在高效处理 CNN 和Transformer。NPX6 的计算单元(图 5)包括卷积加速器,该加速器旨在处理对 CNN 和Transformer都至关重要的矩阵乘法。张量加速器也至关重要,因为它旨在处理所有其他非卷积张量算子集架构 (TOSA) 运算,包括Transformer运算。

909d2a88-918a-11ed-bfe3-dac502259ad0.png

图 5:新思科技 ARC NPX6 NPU IP

总结

视觉Transformer已经取得了快速进步,并将继续保持。这些基于注意力的网络在准确度方面优于仅支持 CNN 的网络。将视觉Transformer与卷积相结合的模型在推理(如 MobileViT)方面更高效,并提高了性能效率。这种新型神经网络模型正在开启解决未来 AI 任务的大门,例如完全视觉感知,其需要的知识单靠视觉可能不易获取。Transformer与 CNN 相结合,引领着新一代 AI 的发展。选择同时支持 CNN 和Transformer的架构,对于新兴 AI 应用的 SoC 成功至关重要。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4774

    浏览量

    100894
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    46031
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24737

原文标题:Transformer的兴起:提高实时视觉处理的准确度

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    地平线ViG基于视觉Mamba的通用视觉主干网络

    Vision Mamba的成功预示着将视觉表征学习转换为线性复杂视觉序列表征学习具有巨大的潜力。尽管以Vision Mamba为代表的线性视觉序列表征学习结构在高清图像上展示了显著的
    的头像 发表于 01-08 09:33 45次阅读
    地平线ViG基于<b class='flag-5'>视觉</b>Mamba的通用<b class='flag-5'>视觉</b>主干网络

    准确度信号链解决方案快速实现七位半DMM

    在对准确度有很高要求的行业里,七位半或更高分辨率的数字万用表(DMM)会被使用,这些DMM采用由分立元器件搭建的多斜率积分ADC。这些ADC虽然可以提供合理准确度的测量结果,但对于大多数工程师来说
    的头像 发表于 12-03 10:55 292次阅读

    如何实现七位半或更高准确度的DMM

    许多仪器仪表应用要求高准确度,例如数字万用表(DMM)、三相标准表、现场仪表校准器、高准确度DAQ系统、电子秤/实验室天平、地震物探仪以及自动测试设备(ATE)中的源表(SMU)/功率测量单元
    的头像 发表于 11-28 11:50 287次阅读
    如何实现七位半或更高<b class='flag-5'>准确度</b>的DMM

    AFE4404可否用于运动时心率检测?准确度如何?

    AFE4404可否用于运动时心率检测?准确度如何?
    发表于 11-19 08:26

    数字压力表的准确度如何?是否适用于精密测量?

    在工业和科研领域,压力的测量工作至关重要,而数字压力表因其直观的数字显示和高精度的特性,成为了这些领域不可或缺的测量工具。那么,数字压力表的准确度到底如何,它是否能满足精细测量的需求呢?
    的头像 发表于 11-07 13:58 189次阅读
    数字压力表的<b class='flag-5'>准确度</b>如何?是否适用于精密测量?

    光电轴角编码器 准确度等级5级是多少

    光电轴角编码器的准确度等级是衡量其测量精度的一个重要指标。对于准确度等级为5级的光电轴角编码器,其相关的计量特性通常包括分度误差、测角重复性和零位误差等。 一、分度误差 分度误差是编码器每两个相邻
    的头像 发表于 10-12 09:50 279次阅读

    Transformer架构在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及在自然语言
    的头像 发表于 07-09 11:42 851次阅读

    使用PyTorch搭建Transformer模型

    Transformer模型自其问世以来,在自然语言处理(NLP)领域取得了巨大的成功,并成为了许多先进模型(如BERT、GPT等)的基础。本文将深入解读如何使用PyTorch框架搭建Transformer模型,包括模型的结构、训
    的头像 发表于 07-02 11:41 1696次阅读

    基于FPGA EtherCAT的六自由机器人视觉伺服控制设计

    平台采用 dsp对图像进行处理,其处理速度较慢,无法满足图像处理实时性要求,限制了机器视觉的应用。FPGA作为一种硬件平台,用于数字图像
    发表于 05-29 16:17

    基于FPGA的六自由机器人视觉伺服控制方案设计

    ​ 机器人视觉系统的硬件选择直接影响图像采集,图像的质量和后期的处理,并影响整个控制系统的实时性,所以应根据要求和这些硬件性能,严格选择硬件。基于伊瑟特的六自由机器人
    发表于 04-24 10:31 516次阅读
    基于FPGA的六自由<b class='flag-5'>度</b>机器人<b class='flag-5'>视觉</b>伺服控制方案设计

    视觉Transformer基本原理及目标检测应用

    视觉Transformer的一般结构如图2所示,包括编码器和解码器两部分,其中编码器每一层包括一个多头自注意力模块(self-attention)和一个位置前馈神经网络(FFN)。
    发表于 04-03 10:32 3586次阅读
    <b class='flag-5'>视觉</b><b class='flag-5'>Transformer</b>基本原理及目标检测应用

    开源DETRs在实时目标检测中胜过YOLOs

    这篇论文介绍了一种名为RT-DETR的实时检测Transformer,是第一个实时端到端目标检测器。
    的头像 发表于 03-06 09:24 1657次阅读
    百<b class='flag-5'>度</b>开源DETRs在<b class='flag-5'>实时</b>目标检测中胜过YOLOs

    机器视觉中如何选择合适波长的光源

    在机器视觉系统中,常常借助光源来提高成像的效果,已提高检测的效率和准确度。那么不同的材料、特征往往需要的不同的光源才能有显著效果,我们今天就来看看如何选择合适波长的光源。首先,我们来了
    的头像 发表于 02-27 15:40 726次阅读
    机器<b class='flag-5'>视觉</b>中如何选择合适波长的光源

    基于Transformer模型的压缩方法

    基于Transformer架构的大型模型在人工智能领域中发挥着日益重要的作用,特别是在自然语言处理(NLP)和计算机视觉(CV)领域。
    的头像 发表于 02-22 16:27 674次阅读
    基于<b class='flag-5'>Transformer</b>模型的压缩方法

    如何用ADUC845产生高准确度的脉冲?

    希望用aduc845产生如下占空比的精准脉冲: 希望200us周期和20us高电平时间非常准确。 现在用Time0 在6MHz产生时,20us脉冲的浮动比较大,有2~3us的变化;200us的周期
    发表于 01-11 08:18