注意力可以为视觉应用程序带来所需的上下文-电子发烧友网

嵌入式视觉技术赋予机器视觉的力量，但今天的系统仍然无法理解图像的所有细微差别。一种用于自然语言处理的方法可以解决这个问题。

基于注意力的神经网络，尤其是变换器网络，彻底改变了自然语言处理（NLP），让机器比以往任何时候都更好地理解语言。这种技术旨在通过为人工神经网络提供历史或背景的概念来模拟认知过程，与使用记忆的旧方法（如长短期记忆（LSTM）和循环记忆）相比，它产生了更复杂的人工智能代理。神经网络（RNN）。NLP 现在对输入的问题或提示有了更深层次的理解，并且可以创建很长的文本作为响应，这些文本通常与人类可能写的内容没有区别。

注意力当然可以应用于图像处理，尽管到目前为止它在计算机视觉中的使用受到限制。Perceive 首席执行官、人工智能专家 Steve Teig 在接受 EE Times 的独家采访时认为，注意力对于视觉应用程序将变得极为重要。

基于注意力的网络

注意机制查看输入序列，例如句子，并在序列中的每条数据（音节或单词）之后决定序列的其他部分是相关的。这类似于您阅读本文的方式：您的大脑在记忆中保留了某些单词，即使它专注于您正在阅读的每个新单词，因为您已经阅读的单词与您正在正确阅读的单词结合在一起现在提供有价值的上下文来帮助您理解文本。

泰格的例子是：

汽车在街上打滑，因为它很滑。

当你读完这句话时，你会明白“滑”可能是指街道而不是汽车，因为你已经记住了“街道”和“汽车”这两个词，你的经验告诉你， “slippery”和“street”比“slippery”和“car”之间的关联性强得多。神经网络可以尝试使用注意力机制来模仿这种能力。

该机制“获取最近过去的所有单词，并以某种方式将它们进行比较，以了解哪些单词可能与哪些其他单词相关，”Teig 说。“然后网络知道至少要关注这一点，因为“滑”更有可能与街道或汽车［相关］而不是［任何其他词］。

因此，注意力是一种专注于将呈现数据的序列减少到可能感兴趣的子集（可能仅是当前和以前的句子），然后分配每个单词可能相关程度的可能性的方法。

“［注意力］最终成为了一种利用时间的方式，以一种有点原则的方式，没有查看曾经发生的一切的开销，”泰格说。“这导致人们，直到最近，还认为注意力是一种可以管理时间的技巧。当然，它对语音处理、语言处理和其他时间事物产生了巨大的积极影响。最近，就在最近几个月，人们开始意识到，也许我们可以用注意力来做其他的信息聚焦。”

视觉转换器

迄今为止，为视觉设计的神经网络对注意力技术的使用非常有限。到目前为止，注意力已与卷积神经网络（CNN）一起应用或用于替换 CNN 的某些组件。但谷歌科学家最近发表的一篇论文（“一幅图像值得 16 × 16 字：大规模图像识别的变形金刚，” 2020 年 10 月）认为注意力的概念更广泛地适用于视觉。作者表明，纯 Transformer 网络是 NLP 中广泛使用的一种依赖于注意力机制的网络，当直接应用于图像块序列时，可以很好地执行图像分类任务。研究人员构建的变压器网络 Vision Transformer （ViT）取得了优于 CNN 的结果，但训练所需的计算资源更少。

虽然很容易想象注意力如何应用于文本或口语对话，但将相同的概念应用于静止图像（而不是诸如视频之类的时间序列）就不那么明显了。事实上，注意力可以用在空间上，而不是这里的时间上下文中。音节或单词类似于图像的补丁。

Teig 的例子是一张狗的照片。显示狗耳朵的图像补丁可能会将自己识别为耳朵，即使是在毛茸茸的动物或四足动物身上发现的特定类型的耳朵。同样，尾巴补丁知道它也存在于毛茸茸的动物和四足动物身上。图像背景中的树块知道它有树枝和树叶。注意力机制询问耳贴和树贴有什么共同点。答案是，不多。然而，耳贴和尾贴确实有很多共同点。他们可以讨论这些共性，也许神经网络可以找到比“耳朵”或“尾巴”更大的概念。也许网络可以理解图像提供的一些上下文，以计算出耳朵加尾巴可能等于狗。

注意力可以通过了解图像块之间的相关性来推断上下文，从而帮助 AI 代理更好地理解图像中发生的事情。

“狗的耳朵和尾巴不是独立的这一事实使我们能够更简洁地描述图片中发生的事情：‘图片中有一只狗’，而不是‘旁边有一个棕色像素到一个灰色像素，旁边是……’，这是对图片中正在发生的事情的可怕描述，”Teig 说。“可以这么说，当系统用这些语义术语描述图像的各个部分时，这就是可能的。然后它可以将这些聚合成更有用的概念，用于下游推理。”

Teig 说，最终的目标是让神经网络理解图片是一只追逐飞盘的狗。

“祝你好运，用 1600 万色像素做到这一点，”他说。“这是一种尝试将其处理为‘有一只狗；有一个飞盘；狗在跑。‘ 现在我有机会理解狗可能在玩飞盘。”

更近一步

谷歌在视觉系统注意力方面的工作是朝着正确方向迈出的一步，Teig 说，“但我认为无论从理论和软件的角度，还是从硬件的角度来看，这里都有很大的进步空间，当一个不必用巨大的矩阵来打击数据，我非常怀疑你的大脑正在做什么。有很多东西可以在上下文中过滤掉，而无需将其与其他所有内容进行比较。”

虽然 Google 研究团队的解决方案比 CNN 更节省地使用计算资源，但 NLP 中通常实现注意力的方式使得像转换器这样的网络非常耗费资源。Transformer 经常构建巨大的 N × N 音节矩阵（用于文本）或像素（用于图像），需要大量的计算能力和内存来处理。

“那里的数据中心人员认为，‘太好了——我们有一个数据中心，所以一切对我们来说都像是钉子，’”Teig 说，这就是我们最终得到像 OpenAI 的 GPT-3 这样的 NLP 模型的方式，它的 1750 亿个参数。“当你先验地看到所有东西时，你可以说前面句子中的几乎所有内容都无关紧要，这有点荒谬。你不能提前做任何过滤吗？你真的要因为你有一个巨大的矩阵乘法器就粗暴地做这个吗……？这有任何意义吗？可能不是。”

科学界最近尝试减少注意力的计算开销，已将所需的操作数量从 N 2减少到 N√N。但这些尝试延续了“近乎普遍的信念——我不同意——即深度学习完全是关于矩阵和矩阵乘法，”Teig 说，并指出最先进的神经网络研究正在由那些能够获得大规模矩阵乘法加速器。

Teig 作为边缘 AI 加速器芯片公司 Perceive 的首席执行官的观点是，有更有效的方法来概念化神经网络计算。Perceive 已经在使用其中一些概念，Teig 认为类似的见解将适用于注意力机制和转换器网络。

“我认为关注的精神非常重要，”他说。“我认为机器本身将在未来几年内迅速发展……在软件、理论上和硬件方面来代表它。”

今天的大型变压器网络最终会安装到边缘设备的加速器上吗？在 Teig 看来，部分问题在于像 GPT-3 的 1750 亿个参数这样的网络——大约 1 万亿位信息（为了论证而假设 8 位参数）。

他说：“这就像我们在玩20个问题的游戏，只是我要问你一万亿个问题，才能理解你刚才说的话。”也许两万或两百万不能完成，但一万亿——滚出去！缺陷不是我们有一个20-MW的小芯片；缺陷在于，拥有1750亿个参数意味着你真的做错了什么。

根据泰格的说法，减少基于注意力的网络的参数数量，并有效地表示它们，可以为边缘设备带来基于注意力的嵌入式视觉。而这样的发展“并不遥远”。

Percept首席执行官Steve Teig将在嵌入式愿景峰会上发表两次演讲。在“直面偏见”中，他将讨论人工智能系统中歧视的来源，而在“TinyML不够大”中，他将挑战TinyML模型必须在准确性上妥协以及它们应该在CPU或MCU上运行的观念。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

嵌入式

嵌入式

+关注

关注
5085

文章
19138

浏览量
305705
神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100838

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

的应用。MAML算法通过二阶优化找到对任务变化敏感的模型参数，实现了快速适应。上下文学习则引入了注意力机制，使模型能够根据当前场景动态调整行为策略。在预训练-微调范式中，我们要注意任务表示的重要性：好的表示

发表于 12-24 15:03

一种基于因果路径的层次图卷积注意力网络

机电系统中的故障检测对其可维护性和安全性至关重要。然而，系统监测变量往往具有复杂的联系，很难表征它们的关系并提取有效的特征。本文开发了一种基于因果路径的层次图卷积注意力网络（HGCAN），以提高复杂

发表于 11-12 09:52 •297次阅读

一种基于因果路径的层次图卷积<b class='flag-5'>注意力</b>网络

Llama 3 在自然语言处理中的优势

领域的最新进展。 1. 高度的上下文理解能力 Llama 3的一个显著优势是其对上下文的深刻理解。传统的NLP模型往往在处理复杂的语言结构和上下文依赖性时遇到困难。Llama 3通过使用先进的

发表于 10-27 14:22 •303次阅读

SystemView上下文统计窗口识别阻塞原因

SystemView工具可以记录嵌入式系统的运行时行为，实现可视化的深入分析。在新发布的v3.54版本中，增加了一项新功能：上下文统计窗口，提供了对任务运行时统计信息的深入分析，使用户能够彻底检查每个任务，帮助开发人员识别阻塞原因。

发表于 08-20 11:31 •447次阅读

鸿蒙Ability Kit（程序框架服务）【UIAbility组件基本用法】

UIAbility组件的基本用法包括：指定UIAbility的启动页面以及获取UIAbility的上下文[UIAbilityContext]。

发表于 06-06 11:02 •492次阅读

鸿蒙Ability Kit（程序框架服务）【应用上下文Context】

[Context]是应用中对象的上下文，其提供了应用的一些基础信息，例如resourceManager（资源管理）、applicationInfo（当前应用信息）、dir（应用文件路径）、area

发表于 06-06 09:22 •511次阅读

TC375对pflash进行擦除和写入操作时出现上下文管理错误怎么解决？

我正在研究 TC375 中的引导加载器概念，Pf0（前 3Mb）被划分为引导加载器和应用程序代码，根据引导加载器和应用程序代码更改链接器脚本，因为两者是不同的项目。启动程序启动地址为

发表于 05-29 07:13

编写一个任务调度程序，在上下文切换后遇到了一些问题求解

大家好，我正在编写一个任务调度程序，在上下文切换后遇到了一些问题。为下一个任务恢复上下文后： __builtin_tricore_mtcr_by_name(\"pcxi\"

发表于 05-22 07:50

鸿蒙开发接口Ability框架：【 (Context模块)】

Context模块提供了ability或application的上下文的能力，包括允许访问特定于应用程序的资源、请求和验证权限等。

发表于 05-13 16:04 •725次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

：为了融入词的语义信息，John Rupert 提出了分布式语义假设，即词的语义可以由其上下文的分布表示。基于这一思想，可以利用大规模的未标注数据，根据每个词的上下文分布进行表示。常见

发表于 05-05 12:17

JPEG LS算法局部梯度值计算原理

如果同一个上下文中对少量元素进行编码，通常无法获得足够的上下文编码信息。但是如果对大量元素进行编码又会带来存储空间变大的问题。因此要对局部梯度值进行量化处理。

发表于 04-25 10:46 •495次阅读

TC397收到EVAL_6EDL7141_TRAP_1SH 3上下文管理EVAL_6EDL7141_TRAP_1SH错误怎么解决？

我收到EVAL_6EDL7141_TRAP_1SH 3 类（TIN4-Free 上下文列表下溢）上下文管理EVAL_6EDL7141_TRAP_1SH错误。请告诉我解决这个问题的办法。

发表于 03-06 08:00

在蓝牙模块CYW20706上下载应用程序到串行闪存失败了的原因？

我尝试在蓝牙模块CYBT-343026-01（CYW20706）上下载应用程序到串行闪存，但失败了。第一步是按照 AIROC™ HCI UART 控制协议文档（见下文）的指示向模块发送

发表于 03-01 11:59

请问risc-v中断还需要软件保存上下文和恢复吗？

risc-v中断还需要软件保存上下文和恢复吗？

发表于 02-26 07:40

ISR的上下文保存和恢复是如何完成的？

函数：ifxCPU_enableInterrupts ()；如果我让更高优先级的 ISR 中断优先级较低的 ISR，那么 ISR 的上下文保存和恢复是如何完成的？

发表于 01-22 06:28