0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过Transformer架构赋能新一代边缘AI应用

Arm社区 来源:Arm社区 2024-04-08 10:45 次阅读

人工智能 (AI) 和机器学习 (ML) 的加速发展既得益于基础硬件的不断改进,也离不开软件领域的发展成果。

以 Transformer 架构为例。2017 年,谷歌在一篇研究论文中[1]首次提出这一架构,它采用自注意力机制 (self-attention),使模型能够在进行预测时对不同的输入词元 (token) 赋予不同权重。利用自注意力机制,Transformer 模型能够捕捉数据中的远程依赖关系,因此在执行语言翻译、图像处理、文本生成和情感分析等任务时非常高效。例如,生成式预训练模型 (GPT) 就是当前流行训练有素的 Transformer 模型。这些模型已经在语音助手和 AI 图像生成工具中得到应用。

这之于感知器 (perceptron) 还是存在很大的差别。感知器是早期的一种神经网络,由单层人工神经元组成,可在模式识别任务(例如,识别手写数字)中做出二元决策。相较于卷积神经网络 (CNN),Transformer 架构已开始受到更多青睐。CNN 对数据架构方式会进行内置假设,它关注附近的关系,以及观察图像或视频中的对象移动或变化方式。

而 Transformer 架构则不会做出这些假设。相反地,它利用自注意力来理解序列的不同部分如何相互关联,而忽略其位置信息。得益于这种灵活性,基于 Transformer 的模型能够更加轻松地适应不同的任务。

这是如何实现的?Transformer 架构及其采用的注意力机制彻底改变了 AI 应用的格局,因为注意力机制具备的相关功能可以为诸多用例提供支持。文本(及语言)本身就是编码信息,图像、音频以及其他形式的串行数据同样如此。由于编码信息可以解读为一种语言,因此 Transformer 模型可以广泛应用于不同的用例中。这种适应性对于理解视频、填充图像的缺失部分或同时分析来自多个摄像头的数据或多模态数据来源(参见下文示例)等任务非常有效。

2020 年问世的 Vision Transformer (ViT) 是将 Transformer 架构成功应用于图像分类的最早一批神经网络技术[2]之一。ViT 将图像划分为多个图块,并使用自注意力机制对这些图块之间的交互进行建模。

自此,Transformer 模型被迅速应用于各类视觉任务中,例如:

图像分类

目标检测

语义分割

图像超分辨率

图像生成

视频分类

在硬件上优化模型

那么,硬件与这一切有什么关系呢?关系相当密切!而且硬件将是未来发展的关键因素。

GPU、TPU 或 NPU(甚至 CPU)都可以处理 Transformer 模型所需的密集矩阵运算和并行计算。同时,Transformer 架构可使更复杂的模型运行于资源更为受限的边缘设备上。

主要有以下三个原因:

与 CNN 或循环神经网络 (RNN) 相比,Transformer 架构从本质上而言更具可并行性。这一特性能更有效地利用硬件,从而可以在计算资源受限的边缘设备上部署基于 Transformer 的模型。

自注意力机制意味着通过较小的 Transformer 模型所带来的性能表现,可以媲美基于 CNN 或 RNN 的较大模型,从而降低边缘部署的算力与内存需求。

模型压缩技术(例如剪枝、量化、知识提炼和注意力稀疏)的提升可进一步缩小 Transformer 模型的大小,同时又不会造成性能或准确性的明显下降。

Transformer 架构提升

现在,不妨想象一下功能更强大的计算资源,毕竟这一切并不遥远。通过优化支持 Transformer 架构的硬件,创新者可充分发掘这些强大神经网络的全部潜力,并为跨不同领域和模式的 AI 应用带来全新的可能性。

例如,硬件性能和效率的提升可以:

加快 Transformer 模型的推理速度,从而提高响应能力,并改善用户体验。

部署更大的 Transformer 模型,从而在语言翻译、文本生成和图像处理等任务中获得更佳表现。

提高在一系列应用和部署场景中的边缘设备、云服务器或专用 AI 加速器中部署 Transformer 解决方案的可扩展性。

探索全新架构,并不断优化 Transformer 模型。这其中包括尝试不同的层配置、注意力机制和正则化技术,以进一步提高模型的性能和效率。

显著提高能效,鉴于某些模型的规模增长,这一点至关重要。

试想一下,当你打开手机或智能眼镜上[3]的某个视觉应用,它可以识别某个款式的衬衫,并从你的衣柜中推荐与之搭配的下半身穿着。或者由于算力提升而出现的新的图像生成功能[4]。

增加计算资源并不困难。集成子系统可提供经过验证的各种处理单元块,包括 CPU、NPU、互连、内存和其他组件。而软件工具可以根据处理器来优化 Transformer 模型,以获得性能和效率的最大化。

拥抱未来

通过硬件优化,Transformer 模型架构有望推动一些令人惊叹的新应用。借助优化的硬件配置以及集成子系统、互连和软件开发,无论是更快的推理速度,为更大的模型提供更好的性能,还是更出色的可扩展性等等,这一切都将成为可能。这条通往创新和探索的全新旅程,正在蓬勃发展,引领我们走向更远的未来。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100410
  • 人工智能
    +关注

    关注

    1789

    文章

    46633

    浏览量

    236977
  • 机器学习
    +关注

    关注

    66

    文章

    8347

    浏览量

    132289
  • AI加速器
    +关注

    关注

    1

    文章

    67

    浏览量

    8623

原文标题:大咖观点 | 通过 Transformer 架构赋能新一代边缘 AI 应用

文章出处:【微信号:Arm社区,微信公众号:Arm社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    蚂蚁数科发布AI新一代数据标注产品

    在近日举行的2024 Incluison·外滩大会上,蚂蚁数科凭借其技术创新的深厚底蕴,正式推出了新一代AI数据标注产品,旨在为企业客户提供全方位、智能化的数据解决方案。这款产品的问世,标志着蚂蚁数科在AI数据服务领域迈出了坚实
    的头像 发表于 09-10 16:04 362次阅读

    一代高功能新一代AI加速器(DRP-AI3):10x在高级AI系统高级AI中更快的嵌入处理

    电子发烧友网站提供《下一代高功能新一代AI加速器(DRP-AI3):10x在高级AI系统高级AI
    发表于 08-15 11:06 0次下载
    下<b class='flag-5'>一代</b>高功能<b class='flag-5'>新一代</b><b class='flag-5'>AI</b>加速器(DRP-<b class='flag-5'>AI</b>3):10x在高级<b class='flag-5'>AI</b>系统高级<b class='flag-5'>AI</b>中更快的嵌入处理

    Pegatron通过AI的数字孪生来模拟并优化工厂运营

    制造商在缩短生产周期、提高生产力与质量方面所面临的压力越来越大,而且还要在做到这切的同时降低成本。为了应对这些挑战,他们正在通过投资工业数字化和 AI
    的头像 发表于 07-02 11:53 600次阅读

    蚂蚁数科发布新一代融合AI风控引擎“AIR Engine”

    在数字化浪潮的推动下,金融科技领域的风控技术正迎来新的突破。近日,蚂蚁数科旗下的蚁盾风控团队正式发布了新一代融合AI风控引擎——“AIR Engine(AIFUSERiskEngine)”,该引擎在原有的决策式AI
    的头像 发表于 06-26 18:20 1170次阅读

    边缘AI实现性能和功耗的平衡,英飞凌新一代PSOC™ Edge MCU如何做到?

    电子发烧友网报道(文/吴子鹏)传统AI的使用场景有定局限性,难以面对实际应用场景的多样化,基于云端算力的AI大模型对特定场景的适配性较差,因而算力下沉、数据下沉的边缘
    的头像 发表于 06-26 00:14 5376次阅读
    让<b class='flag-5'>边缘</b><b class='flag-5'>AI</b>实现性能和功耗的平衡,英飞凌<b class='flag-5'>新一代</b>PSOC™ Edge MCU如何做到?

    英特尔新一代AI PC酷睿Ultra处理器强势来袭

    近日,在台北国际电脑展上,英特尔展示了大力加速AI生态的前沿技术和架构,遍及数据中心、云与网络边缘和PC。得益于更高计算处理性能、出色的效表现、和更低的总体拥有成本(TCO),用户能
    的头像 发表于 06-15 11:39 829次阅读

    推出最新的边缘AI服务器及内置耐AI芯片的PC设备

    加速棒和边缘服务器,与领先的 GPU 配合使用时,可将其能耗降低 30%。 2024年6月5日,耐今天于2024年台北国际电脑展(COMPUTEX 2024)上宣布推出最新的边缘AI
    的头像 发表于 06-05 10:21 544次阅读

    NVIDIA 通过 Holoscan 为 NVIDIA IGX 提供企业软件支持,实现边缘实时医疗、工业和科学 AI 应用

    美敦力、SETI协会以及领先的制造商正在构建  NVIDIA IGX 系统, 为  AI 在工业边缘     COMPUTEX — 2024 年 6 月 2 日 — NVIDIA
    发表于 06-03 09:48 276次阅读
      NVIDIA <b class='flag-5'>通过</b> Holoscan 为 NVIDIA IGX 提供企业软件支持,实现<b class='flag-5'>边缘</b>实时医疗、工业和科学 <b class='flag-5'>AI</b> 应用

    步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    2024年3月19日,[英伟达]CEO[黄仁勋]在GTC大会上公布了新一代AI芯片架构BLACKWELL,并推出基于该架构的超级芯片GB200,将助推数据处理、工程模拟、电子设计自动化
    发表于 05-13 17:16

    英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta Llama 3
    的头像 发表于 04-28 11:16 555次阅读

    DPU技术一代AI算力基础设施

    4月19日,在以“重构世界 奔赴未来”为主题的2024中国生成式AI大会上,中科驭数作为DPU新型算力基础设施代表,受邀出席了中国智算中心创新论坛,发表了题为《以网络为中心的AI算力底座构建之路》主题演讲,勾勒出在通往AGI之路上,DPU技术
    的头像 发表于 04-20 11:31 785次阅读

    Supermicro 扩展边缘计算产品组合,推出新一代嵌入式解决方案,加速物联网和边缘 AI 工作负载的处理速度

    、云计算、存储和 5G/边缘提供全方位信息技术解决方案的供应商, Supermicro, Inc.(纳斯达克股票代码:SMCI)宣布,推出新一代物联网和嵌入式系统,旨在提升远程边缘智能应用的性能表现
    的头像 发表于 04-10 14:09 396次阅读
    Supermicro 扩展<b class='flag-5'>边缘</b>计算产品组合,推出<b class='flag-5'>新一代</b>嵌入式解决方案,加速物联网和<b class='flag-5'>边缘</b> <b class='flag-5'>AI</b> 工作负载的处理速度

    研扬携手英特尔,联合举办创AI百城行(武汉站):用OpenVINO™AI边缘计算平台

    边缘计算作为实现智能化、高效化数据处理的关键技术,日益受到业界的广泛关注。为了进步推动AI边缘计算技术的发展与应用,3月27日研扬科技与英特尔在武汉共同举办了以“用OpenVINO
    的头像 发表于 04-04 08:05 189次阅读
    研扬携手英特尔,联合举办创<b class='flag-5'>AI</b>百城行(武汉站):用OpenVINO™<b class='flag-5'>赋</b><b class='flag-5'>能</b><b class='flag-5'>AI</b>于<b class='flag-5'>边缘</b>计算平台

    国产六核CPU,三屏异显,新一代商显

    处理器共同推出米尔MYC-YD9360核心板及开发板,新一代车载智能、电力智能、工业控制、新能源、机器智能等行业发展,满足多屏的显示需求。
    发表于 12-22 18:07

    云天励飞发布新一代边缘AI芯片,采用Chiplet技术,可运行百亿级大模型

    工艺,内含国产RISC-V核,支持大模型推理部署。   云天励飞新一代自研AI SoC DeepEdge10   大模型在边缘运行对AI 芯片提出新的要求   人工智能正在带来史无前例
    的头像 发表于 11-23 01:08 2500次阅读
    云天励飞发布<b class='flag-5'>新一代</b><b class='flag-5'>边缘</b><b class='flag-5'>AI</b>芯片,采用Chiplet技术,可运行百亿级大模型