CPU优化技术之NEON 的基本原理、指令

本文选自极术专栏《嵌入式 AI》的文章，授权转自作者高性能计算学院的《移动端算法优化》。前面我们学习了如何快速上手开始NEON编程，ArmNEON优化技术以及Arm NEON学习（三）NEON 汇编与Intrinsics编程。本篇将从CPU优化技术层面来详细讲解Arm NEON。

一、SIMD

Arm NEON 是适用于 Arm Cortex-A 和 Cortex-R 系列处理器的一种 SIMD（Single Instruction Multiple Data）扩展架构。

SIMD 采用一个控制器来控制多个处理器，同时对一组数据（又称“数据向量”）中的每个数据分别执行相同操作，从而实现并行技术。

SIMD 特别适用于一些常见的任务，如音频图像处理。大部分现代 CPU 设计都包含了 SIMD 指令，来提高多媒体使用的性能。

SIMD 操作示意图

如上图所示，标量运算时一次只能对一对数据执行乘法操作，而采用 SIMD 乘法指令，则一次可以对四对数据同时执行乘法操作。

A. 指令流与数据流

费林分类法根据指令流（Instruction）和数据流（Data）的处理方式进行分类，可分成四种计算机类型：

费林分类示意图

1. SISD（Single Instruction Single Data）

机器的硬件不支持任何形式的并行计算，所有的指令都是串行执行。单个核心执行单个指令流 , 操作存储在单个内存中的数据 , 每次一个操作。早期的计算机都是SISD机器，如冯诺.依曼架构，IBM PC机等。

2. MISD（Multiple Instruction Single Data）

是采用多个指令流来处理单个数据流。由于实际情况中，采用多指令流处理多数据流才是更有效的方法，因此MISD只是作为理论模型出现，没有投入到实际应用之中。

3. MIMD（Mutiple Instruction Mutiple Data）

计算机具有多个异步和独立工作的处理器。在任何时钟周期内，不同的处理器可以在不同的数据片段上执行不同的指令，也即是同时执行多个指令流，而这些指令流分别对不同数据流进行操作。MIMD架构可以用于诸如计算机辅助设计、计算机辅助制造、仿真、建模、通信交换机的多个应用领域。

除了以上模型外，由NVIDIA公司生产的GPU引入SIMT体系结构：

4. SIMT（Single Instruction Multiple Threads）

类似 CPU 上的多线程，所有的核心各有各的执行单元，数据不同，执行的命令是相同的。多个线程各有各的处理单元，和 SIMD 共用一个 ALU 不同。

SIMT 示意图

B. SIMD 特点及发展趋势

1. SIMD 优势与不足

2. SIMD发展趋势

以Arm架构下的下一代 SIMD 指令集 SVE（Scalable Vector Extension，可扩展矢量指令）为例，其是_针对高性能计算（HPC）和机器学习等领域开发的一套全新的矢量指令集_。

SVE 指令集中有很多概念与 NEON 指令集类似，例如矢量、通道、数据元素等。

SVE指令集也提出了一个全新的概念：可变矢量长度编程模型。

SVE 可扩展模型

传统的 SIMD 指令集采用固定大小的向量寄存器，例如 NEON 指令集采用固定的 64/128 位长度的矢量寄存器。

而支持 VLA 编程模型的 SVE 指令集则支持可变长度的矢量寄存器。因此允许芯片设计者根据负载和成本来选择一个合适的矢量长度。

SVE 指令集的矢量寄存器的长度最小支持 128 位，最大可以支持 2048 位，以 128 位为增量。SVE 设计确保同一个应用程序可以在支持不同矢量长度的 SVE 指令机器上运行，而不需要重新编译代码。

Arm 在 2019 年便推出了 SVE2，以最新的 Armv9 为基础，扩充了更多的运算类型以全面替代 NEON，同时增加了矩阵相关运算的支持。

二、 Arm 的 SIMD 指令集

1. Arm 处理器的 SIMD 支持 - NEON

Arm NEON 单元默认包含在 Cortex-A7 和 Cortex-A15 处理器中，但在其他 Armv7 Cortex-A 系列处理器中是可选的，某些实现 Armv7–A 或 Armv7–R 架构配置文件的Cortex-A 系列处理器可能不包含NEON单元。

符合 Armv7 的内核的可能组合有以下四种：

因此必须首先确认处理器是否支持 NEON 和 VFP。可以在编译和运行的时候进行检查。

NEON 发展史

2. ARM 处理器的 SIMD 支持检查

2.1 编译阶段检查

检测 NEON 单元是否存在的最简单方法。在 Arm 编译器工具链（armcc）v4.0 及更高版本或 GCC 中，检查预定义宏 ARM_NEON 或者 __arm_neon 是否开启。

armasm 等效的预定义宏是 TARGET_FEATURE_NEON。

2.2 运行阶段检查

在运行时检测 NEON 单元需要操作系统的帮助。ARM 架构有意不向用户模式应用程序公开处理器功能。在Linux下，/proc/cpuinfo 以可读的形式包含此信息，比如：

在Tegra（带有FPU的双核Cortex-A9处理器）

$ /proc/cpuinfo 
swp half thumb fastmult vfp edsp thumbee vfpv3 vfpv3d16

带有 NEON 单元的 ARM Cortex-A9 处理器

$ /proc/cpuinfo 
swp half thumb fastmult vfp edsp thumbee neon vfpv3

由于 /proc/cpuinfo 输出是基于文本的，因此通常首选查看辅助向量 /proc/self/auxv，其包含二进制格式的内核 hwcap，可以轻松地在 /proc/self/auxv 文件中搜索 AT_HWCAP 记录，以检查 HWCAP_NEON 位（4096）。

某些 Linux 发行版 ld.so 链接器脚本被修改为通过 glibc 读取 hwcap ，并为启用 NEON 的共享库添加额外的搜索路径。

3. 指令集关系

在Armv7中，NEON 与 VFP 指令集具有以下关系：

具有 NEON 单元但没有VFP单元的处理器无法在硬件中执行浮点运算。

由于 NEON SIMD 操作更有效地执行向量计算，因此从 ARMv7 的引入开始，VFP 单元中的向量模式操作已被弃用。因此，VFP 单元有时也称为浮点单元（FPU）。

VFP 可以提供完全兼容 IEEE-754 的浮点运算，Armv7 NEON 单元中的单精度运算不完全符合 IEEE-754。

NEON不能取代 VFP。VFP 提供了一些在 NEON 指令集中没有等效实现的专用指令。

半精度指令仅适用于包含半精度扩展的 NEON 和 VFP 系统。

在Armv8中，VFP已被NEON取代，以上问题如 NEON 并不完全符合 IEEE 754 标准，并且有一些指令 VFP 支持而 NEON 不支持的问题已在 ARMv8 中得到解决。

三、NEON

NEON 是适用于 Arm Cortex-A 系列处理器的一种128位 SIMD 扩展结构，每个处理器核心均有一个 NEON 单元，因此可以实现多线程并行的加速效果。

1. NEON基本原理

1.1 NEON 指令执行流程

上图为 NEON 单元完成加速计算的流程图。其中向量寄存器中的每个元素同步执行计算，以此来加速计算过程。

1.2 NEON 计算资源

NEON 与 Arm 处理器资源关系

- NEON 单元作为 Arm指令集的扩展，使用独立于 ARM 原有寄存器的 64位或 128 位寄存器进行 SIMD 处理，在 64位寄存器的寄存器文件上运行。
- NEON 和 VFP 单元完全集成到了处理器中，并共享处理器资源以进行整数运算、循环控制和缓存。
与硬件加速器相比，这显着降低了面积和功耗成本。并且其还使用更简单的编程模型，因为NEON 单元使用与应用程序相同的地址空间。

NEON 与 VFP 资源关系

NEON 寄存器与 VFP 寄存器重叠，Armv7 有 32 个 NEON D 寄存器，如下图所示。

NEON 寄存器

2. NEON指令

2.1 自动矢量化

向量化编译器可以使用 C 或 C++ 源代码，以一种能够有效使用 NEO N硬件的方式对其进行矢量化。这意味着可以通过编写可移植的 C 代码，同时仍然可以获得 NEON 指令所带来的性能水平。

为了帮助矢量化，将循环迭代次数设为矢量长度的倍数。GCC 和 ARM 编译器工具链都具有为 NEON 技术启用自动矢量化的选项。

2.2 NEON汇编

对于性能要求特别高的程序，手工编写汇编代码是更适合的方式。

GNU 汇编器（gas）和 Arm Compile r工具链汇编器（armasm）都支持 NEON 指令的汇编。

编写汇编函数时，需要了解 Arm EABI，其定义了如何使用寄存器。ARM嵌入式应用程序二进制接口（EABI）指定哪些寄存器用于传递参数、返回结果或必须保留，指定了除Arm内核寄存器之外的32个D寄存器的使用。下图对寄存器功能进行了总结。

寄存器功能

2.3 NEON Intrinsics

NEON intrinsic 函数提供了一种编写 NEON 代码的方法，该方法比汇编代码更易于维护，同时仍然可以控制生成的 NEON 指令。

内部函数使用与 D 和 Q NEON 寄存器对应的新数据类型。数据类型支持创建直接映射到NEON 寄存器的 C 变量。

NEON intrinsic 函数的编写类似于使用这些变量作为参数或返回值的函数调用。编译器做了一些通常与编写汇编语言相关的繁重工作，例如：

寄存器分配
代码调度或重新排序指令

intrinsic 缺点

无法让编译器准确输出想要的代码，因此在转向NEON汇编代码时仍有一些改进的可能性。

NEON 指令简类型

NEON 数据处理指令可以分为正常指令、长指令、宽指令、窄指令和饱和指令。
以 Intrinsic 的长指令为例 int16x8_t vaddl_s8(int8x8_t __a, int8x8_t __b);
- 上面的函数将两个64位的 D 寄存器向量（每个向量包含8个8位数字）相加，生成一个包含8个16位数字的向量（存储在128位的Q寄存器中），从而避免相加的结果溢出。

四、其他 SIMD 技术

1. 其他平台上的 SIMD 技术

SIMD 处理不是 Arm 独有的，下图将其与 x86 和 Altivec 进行了比较。

SIMD 对比

2. 与专用 DSP 对比

许多基于 Arm 的 SOC 中还包含 DSP 等协处理硬件，因此可以同时包含 NEON 单元和DSP。相对于 DSP，NEON 的特点有：

五、总结

本节主要介绍基本 SIMD 及其他的指令流与数据流的处理方式，NEON 的基本原理、指令以及与其他平台及硬件的对比。

期望大家都能有所收获。

编辑：黄飞

阅读全文

cpu(206162) cpu(206162)
NEON技术(6044) NEON技术(6044)

CPU在处理指令时一般需要经过哪几个步骤

流水线处理器的基本原理是什么？流水线处理器设计年面临哪些困难？CPU在处理指令时一般需要经过哪几个步骤？

2021-08-10 06:46:02

NEON汇编与NEON intrinsics编程的优缺点比较

，intrinsics比较易学易用。但是对于有汇编经验的开发者来说，可能更熟悉NEON汇编编程，切换到intrinsics反倒需要有个适应过程。下文列出了实际开发中的一些问题。2.1.1 指令灵活性从指令使用角度来说

2022-03-30 10:46:25

ADC基本原理是什么？通道类别有哪些？

STM32F10x ADC特点是什么？ADC基本原理是什么？通道类别有哪些？

2021-11-18 07:59:56

ADRC的基本原理是什么？有哪些应用？

ADRC的基本原理是什么？有哪些应用？PID到底好在在哪里？如何保留PID的优点？

2021-11-22 06:14:59

Arm Neon技术指南

本指南介绍了Arm Neon技术,即用于执行Armv8-A或Armv8-R结构剖面的高级 SIMD(单一指示多数据)架构扩展,Neon技术为指令设置架构提供了专门的扩展,提供了可同时在多个

2023-08-08 06:13:11

CapSense技术的基本原理是什么？它有哪些应用？

CapSense技术的基本原理是什么？CapSense技术怎样去实施？手机中使用CapSense技术

2021-04-21 06:00:09

DDS基本原理及性能特点，实现DDS的技术方案有哪几种？

DDS基本原理及性能特点实现DDS的三种技术方案

2021-04-07 06:02:42

DMA基本原理及相关实验相关资料推荐

，就开始DMA传送，同时，串口调试助手可以收到DMA发送的内容。官方资料：《STM32中文参考手册V10》第10章——DMA控制器1. DMA（Direct MemoryAccess-直接存储器访问）基本原理1.1DMA传输将数据从一个地址空间复制到另一个地址空间。当CPU初始化这个传输动作，

2021-12-10 06:00:01

FPGA基本原理及设计思想和验证方法看完你就懂了

2021-09-18 07:08:52

IC测试基本原理是什么？

IC测试基本原理是什么？ATE测试向量是什么？

2021-05-07 06:43:05

IC测试的基本原理是什么？

本文详细介绍了芯片开发和生产过程中的IC测试基本原理。

2021-05-08 07:33:52

IIC的基本原理是什么？

IIC的基本原理是什么？

2021-11-25 08:46:31

MCS-51单片机基本原理

MCS-51单片机基本原理[学习要求] 掌握MCS-51单片机的基本概念和基本原理。[重点与难点]重点：单片机的基本原理与内部结构。难点：MCS-51单片机存储器结构。[理论内容]一、MCS-51

2009-03-19 16:39:57

PWM控制的基本原理是什么

PWM控制的基本原理是什么？如何让逆变器输出为等幅矩形波呢？如何实现低通滤波器呢？

2021-10-22 07:06:25

RAID技术的基本原理是什么

RAID技术的基本原理是什么？RAID技术有哪几个优势？

2021-10-14 12:01:50

RFID技术怎么分类？基本原理是什么？

文章介绍了RFID技术的分类、组成及基本原理，完成了基于T89C2051的RFID技术的实现方案，系统的介绍由低电压、高性能的T89C 2051控制的无源应答器和外置单电源供电的阅读器组成。而无

2019-09-24 06:36:47

SPWM的基本原理

基本原理SPWM的全称是(Sinusoidal PWM)，正弦脉冲宽度调制是一种非常成熟，使用非常广泛的技术；之前在PWM的文章中介绍过，基本原理就是面积等效原理，即冲量相等而形状不同的窄脉冲加在

2021-09-06 08:13:18

STM 32 UART串口通信基本原理是什么？

处理器与外部设备通信的通信方式有哪几种？STM32串口异步通信需要定义的参数是什么？STM32 UART串口通信基本原理是什么？

2021-12-15 06:28:58

STM32串口USART的基本原理是什么

STM32串口USART的基本原理是什么？如何让STM32使用printf函数呢？

2021-12-08 07:56:04

STM32串口通信基本原理是什么？

STM32串口通信基本原理是什么？

2021-11-17 07:55:28

STM32串口通信基本原理是什么？

STM32串口通信基本原理是什么？

2021-12-08 06:36:00

TFT-LCD的基本原理与制造技术

TFT-LCD的基本原理与制造技术

2012-08-20 10:56:55

TSP控制的基本原理是什么？

TSP控制的基本原理是什么？

2021-05-11 06:39:18

USART串口通信的基本原理与配置简析

串口通信的基本原理是什么？串口配置包括哪些基本的步骤的？

2021-12-10 07:47:01

stm32串口通信的基本原理是什么？

stm32串口通信的基本原理是什么？

2021-12-15 06:32:14

串口通信基本原理是什么

目录华大单片机---串口通信1.串口通信基本原理（1）串口通信原理：（2）华大的串口通信：（3）简单介绍下：（4）多字符发送：2.初始化代码3.发送代码：4.接收中断代码华大单片机—串口通信1.串口

2021-07-14 07:26:23

串口通信基本原理是什么？

串口通信基本原理是什么？UART异步通信方式特点是什么？常用的串口相关寄存器有哪些？

2022-02-18 08:00:46

串口通信基本原理是什么？

串口通信基本原理是什么？串行通信的分类有哪些？

2021-12-03 06:08:46

串口通信的基本原理是什么？

同步通信和异步通信的区别是什么？串口通信的基本原理是什么？

2021-12-13 06:46:49

串联谐振逆变器的基本原理

串联谐振通常伴有逆变器。该组合称为串联谐振逆变器。什么是基本原理？让我简要介绍串联谐振逆变器的一些基本原理。]首先给你看一张图片：

2018-11-07 10:21:32

什么是PWM？PWM的基本原理是什么？

什么是PWM？PWM的基本原理是什么？PWM输出配置有哪些步骤？

2021-06-30 07:39:25

介绍一些ARM NEON编程中常见的优化技巧

NEON 优化技术在利用NEON优化程序时，有下述几项比较通用的优化技巧。2.1 降低数据依赖性在ARM v7-A NEON指令通常需要3～9个指令周期，NEON指令比ARM指令需要更多周期数。因此

2022-03-30 09:21:52

你们有人知道风力发电的基本原理吗？

求助各位，有人知道风力发电机的发电的基本原理吗？

2012-07-12 21:07:55

你知道ARM处理器 neon优化技巧有哪些吗

1. 去除数据依赖不要将当前指令的目的寄存器作为下一条指令的源寄存器！原因：ARM架构采用的是多级流水线技术，如果下一条指令的源寄存器是当前指令的目的寄存器，就需要当前指令执行完之后，下一条指令

2022-04-29 09:28:45

半导体光刻技术基本原理

，小米9pro，oppo Reno3以及vivo X30）分别采用了什么芯片？ 3协同通信的方式有哪些？ 4大数据及认知无线电（名词解释） 4半导体工艺的4个主要步骤： 4简叙半导体光刻技术基本原理 4给出4个全球著名的半导体设备制造商并指出其生产的设备核心技术： 5卫

2021-07-26 08:31:09

卡尔曼滤波的基本原理及应用

卡尔曼滤波的基本原理及应用

2020-05-05 09:26:15

均衡器的基本原理是什么？

均衡器的基本原理是什么？

2021-05-20 06:45:44

学习架构-用Neon优化C代码intrinsic

师、库编写人员和其他开发人员技术人员会发现本指南非常有用。在本指南的末尾，有一个“检查你的知识”部分来测试你是否理解以下关键概念： •了解霓虹灯是什么，并了解使用霓虹灯的不同方式 •了解在C语言中使用Neon内部函数的基本知识 •了解在哪里可以找到Neon内部引用和Neon指令集

2023-08-02 10:32:29

小白快速上手Arm NEON编程手册指南

开始加速我们的应用了。使用NEON 技术通常有下列四种方式：调用NEON优化过的库函数使用编译器自动矢量化选项使用NEON intrinsics指令手写NEON汇编4.1 调用库函数用户只需要在程序

2022-07-15 15:38:50

小编科普无刷电机转动的基本原理是什么？

无刷电机有哪几个基础定则？无刷电机转动的基本原理是什么？

2021-06-26 06:49:02

并联电流补偿的基本原理是什么？

并联电流补偿的基本原理是什么？瞬时功率计算模块有哪些功能？

2021-07-09 06:50:37

无线充电的基本原理是什么

一、无线充电基本原理无线充电的基本原理就是我们平时常用的开关电源原理，区别在于没有磁介质耦合，那么我们需要利用磁共振的方式提高耦合效率，具体方法是在发送端和接收端线圈串并联电容，是发送线圈处理谐振

2021-09-15 06:01:44

模数转换器(ADC)的基本原理是什么？

模数转换器(ADC)的基本原理是什么？常用的几种ADC类型的基本原理及特点是什么？

2021-09-28 08:21:04

步进电机基本原理

本帖最后由 eehome 于 2013-1-5 09:48 编辑步进电机基本原理

2012-08-16 16:17:52

电动平衡车的基本原理是什么

电动平衡车的基本原理是什么？怎样去操作使用电动平衡车呢？

2022-02-23 07:04:25

电容触摸按键的基本原理是什么

电容触摸按键的基本原理是什么？脉冲如何被捕获？硬件配置的大致流程是怎样的？

2022-01-25 06:47:53

电感的基本原理，电感如何选择？

电感的基本原理电感的工艺结构电感的应用及选型

2021-03-16 11:28:08

电机转动的基本原理是什么？

电机转动的基本原理是什么？电机运动的基本原则有哪些？

2021-07-21 07:59:28

电流检测电阻的基本原理

电流检测电阻的基本原理简单采样电路的实现

2021-01-29 06:26:17

电磁兼容基本原理和具体实施如何

电磁兼容基本原理和具体实施如何

2021-03-11 07:11:53

磁悬浮技术基本原理是什么？

磁悬浮技术基本原理是什么？磁悬浮列车是什么？

2021-03-18 08:14:56

红外光的基本原理

文章目录红外光的基本原理红外光的基本原理红外线是波长介于微波和可见光之间的电磁波，波长在760纳米到1毫米之间，是波形比红光长的非可见光。自然界中的一切物体，只要它的温度高于绝对零度(-273

2022-01-24 06:52:00

红外光的基本原理解析

红外光的基本原理

2020-12-15 06:28:07

线性电源的基本原理是什么

多路线性电源 AC-DC稳压电源低纹波电源可调线性电源原理图PCB目录多路线性电源 AC-DC稳压电源低纹波电源可调线性电源原理图PCB基本原理芯片选型原理图&3D-PCB具体

2021-07-30 07:47:43

视频增强算法的基本原理是什么？

视频增强算法的基本原理是什么？单尺度算法的原理是什么？视频增强能解决的实际问题及应用领域

2021-06-03 07:14:00

语音识别技术的基本原理及应用是什么？

语音识别技术的基本原理是什么？语音识别技术的应用是什么？

2021-05-31 06:50:58

请问垃圾焚烧发电的基本原理及流程是什么？

垃圾焚烧发电的基本原理是什么？垃圾焚烧发电的基本流程有哪些？

2021-06-30 07:10:10

通用计时器基本原理是什么？

通用计时器基本原理是什么？

2022-01-21 06:30:21

遗传算法的基本原理

遗传算法的基本原理.zip

2018-01-07 12:13:01

VoIP的基本原理与技术

VoIP的基本原理与技术: 电话网和IP网的基本概念VoIP的基本原理VoIP的基本结构VoIP在中国科技网

2009-07-31 11:47:17

NEON音频编解码器优化技术

本文旨在探讨在采用NEON技术的ARM Cortex-A8处理器解决方案中部署音频编解码器时使用的各种优化技术。

2010-09-02 22:59:27

ofdm的基本原理

ofdm的基本原理 1 OFDM技术　　OFDM(正交频分复用)技术

2008-10-20 10:54:20

6381

串行通信的基本原理

串口通信的基本原理 串行端口的本质功能是作为CPU和串行设备间的编码转换器。当数据从CPU经过串

2009-10-17 11:24:56

4759

步进马达基本原理

步进马达基本原理步进马达基本原理步进马达基本原理

2021-11-30 11:55:58

时钟与计时的基本原理

时钟与计时的基本原理

2017-10-25 08:52:33

三电平基本原理介绍

三电平基本原理介绍

2017-12-19 19:50:36

NEON技术如何实现移动端视频高效解码AV1?

ARM的NEON技术，其基本原理是让处理器在每个时钟周期内完成更多工作。dav1d 0.3.1中，在解码1080p视频时，基于NEON开发的dav1d可以毫不费力地达到30 fps的流畅度。

2019-06-05 10:47:21

5054

LTE基本原理和关键技术介绍

LTE基本原理和关键技术介绍。

2021-03-24 09:30:51

MIMO基本原理及空时处理技术

MIMO基本原理及空时处理技术说明。

2021-06-16 09:58:14

射频技术rf的基本原理是什么

射频技术rf的基本原理是什么？

2021-10-01 09:02:00

9539

PN结的基本原理及教程

PN结的基本原理及教程

2022-01-04 09:32:02

JTAG基本原理简介

jtag基本原理介绍。

2022-10-24 15:05:08

NEON编程中的一些常见优化技巧

　　读过上一篇文章“ARM NEON快速上手指南”之后，相信你已经对ARM NEON编程有了基本的认识。但在真正利用ARM NEON优化程序性能时，还有很多编程技巧和注意事项。本文将结合本人的一些开发经历，介绍NEON编程中的一些常见优化技巧，希望能对用户在NEON实际开发中有些借鉴意义。

2022-12-12 09:11:24

1355