CPU分支预测对程序的影响

分支预测的英文名字是“Branch Predic tion”，如果大家在Google上搜索这个关键字，可以看到关于分支预测的很多内容。不过，要搞清楚分支预测是如何工作的，才是问题的关键。

分支预测对程序的影响

下面，我们先来看两段代码。

代码1：

#include 
#include 
#include 
int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];
    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = std::rand() % 256;
    // !!! With this, the next loop runs faster.
    //std::sort(data, data + arraySize);
    // Test
    clock_t start = clock();
    long long sum = 0;
    for (unsigned i = 0; i < 100000; ++i) {
        for (unsigned c = 0; c < arraySize; ++c) { // Primary loop
            if (data[c] >= 128) sum += data[c];
        }
    }
    double elapsedTime = static_cast<double>(clock()-start) / CLOCKS_PER_SEC;
    std::cout << elapsedTime << '
';
    std::cout << "sum = " << sum << '
';
}

执行结果：

@ubuntu:/data/study$ g++ fenzhi.cpp && ./a.out
21.6046
sum = 314931600000

代码2：

#include 
#include 
#include 
int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];
    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = std::rand() % 256;
    // !!! With this, the next loop runs faster.
    std::sort(data, data + arraySize);
    // Test
    clock_t start = clock();
    long long sum = 0;
    for (unsigned i = 0; i < 100000; ++i) {
        for (unsigned c = 0; c < arraySize; ++c) { // Primary loop
            if (data[c] >= 128) sum += data[c];
        }
    }
    double elapsedTime = static_cast<double>(clock()-start) / CLOCKS_PER_SEC;
    std::cout << elapsedTime << '
';
    std::cout << "sum = " << sum << '
';
}

执行结果：

@ubuntu:/data/study$ g++ fenzhi.cpp && ./a.out
8.52157
sum = 314931600000

第一段代码生成随机数组后，没有进行排序；第二段代码对随机的数组进行排序，执行的时间上发生了非常大的差异。

究竟发生了什么事情？

导致他们结果不同的原因，就是分支预测。简单来说，分支预测是CPU 处理器对程序的一种预测，和CPU架构有关系，现在的很多处理器都有分支预测的功能。 CPU在执行这段代码的时候：

if (data[c] >= 128) sum += data[c];

CPU会有一个提前预测机制，比如前面的执行结果都是true，那么下一次在判断if的时候，就会默认由true来处理，让下面的几条指令提前进入预装。

当然，这个判断不会影响实际的结果输出，这个判断只是为了让CPU并行执行代码。

CPU执行一条指令分为几个阶段：

既然是分阶段执行，也就是我们正常说的pipeline（流水线执行）。 流水线的工人只要完成自己负责的内容就好了，没有必要去关心其他的人处理。 如果我有一段代码，如下：

int a = 0;
a += 1;
a += 2;
a += 3;

从这个图上我们可以看到，我们认为是在执行 a = 0结束后，才会执行a+=1。 但是实际CPU是在执行a=0的第一条执行后，马上就去执行a+=1的第一条指令了。 也就因为这样，执行速度上得到了大幅度的提升。
但对于if() 语言，在没有分支预测的时候，我们需要等待if()执行出现结果后才能继续执行下一个代码。

如果存在分支预测的情况：

通过比较我们可以发现，如果存在分支预测的时候，就让执行速度变快了。

如果预测失败，会不会就影响了执行的时间？答案是肯定的。

在前面的例子中，没有对数组排序的情况下，分支预测大部分都会是失败的，这个时候就会在执行结束后重新取指令执行，会严重影响执行效率。

而在排序后的例子中，分支预测一直处于成功的状态，CPU的执行速率得到大幅度的提升。

如何解决性能下降问题？

分支预测会存在一定的能性下降，想让性能提升的方法，就是不要使用这个该死的if语句。

比如上面的代码，我们可以修改成这样：

#include 
#include 
#include 
int main()
{
    // Generate data
    const unsigned arraySize = 32768;
    int data[arraySize];
    for (unsigned c = 0; c < arraySize; ++c)
        data[c] = std::rand() % 256;
    // !!! With this, the next loop runs faster.
    //std::sort(data, data + arraySize);
    // Test
    clock_t start = clock();
    long long sum = 0;
    for (unsigned i = 0; i < 100000; ++i) {
        for (unsigned c = 0; c < arraySize; ++c) { // Primary loop
            int t = (data[c] - 128) >> 31;
            sum += ~t & data[c];
        }
    }
    double elapsedTime = static_cast<double>(clock()-start) / CLOCKS_PER_SEC;
    std::cout << elapsedTime << '
';
    std::cout << "sum = " << sum << '
';
}

比如，我们看到的绝对值代码，里面也用了这样的思想。

/**
 * abs - return absolute value of an argument
 * @x: the value. If it is unsigned type, it is converted to signed type first.
 * char is treated as if it was signed (regardless of whether it really is)
 * but the macro's return type is preserved as char.
 *
 * Return: an absolute value of x.
 */
#define abs(x) __abs_choose_expr(x, long long, 
    __abs_choose_expr(x, long, 
    __abs_choose_expr(x, int, 
    __abs_choose_expr(x, short, 
    __abs_choose_expr(x, char, 
    __builtin_choose_expr( 
      __builtin_types_compatible_p(typeof(x), char), 
      (char)({ signed char __x = (x); __x<0?-__x:__x; }), 
      ((void)0)))))))

#define __abs_choose_expr(x, type, other) __builtin_choose_expr( 
  __builtin_types_compatible_p(typeof(x), signed type) || 
  __builtin_types_compatible_p(typeof(x), unsigned type), 
  ({ signed type __x = (x); __x < 0 ? -__x : __x; }), other)

当然，你也可以这样写：

int abs(int i){
   if(i<0)
    return ~(--i);
  return i;
}

所以说，计算机的尽头是数学~

　　审核编辑：汤梓红

阅读全文

处理器(221451) 处理器(221451)
Google(56747) Google(56747)
cpu(206162) cpu(206162)
程序(79405) 程序(79405)



请按住滑块，拖动到最右边



了解新功能

跨不同CPU开发应用程序时面临哪些挑战

将Arm CPU设备（电路板和软件）上开发的应用程序轻松快速地移植到RISC-V CPU设备，这一任务颇具挑战性。那么，跨不同CPU开发应用程序时面临哪些挑战？

2022-10-14 10:45:29

837

Git命令之本地分支与远程分支关联和解除

在实际的工作生活中，往往需要将本地的分支和远程分支关联，这样我们就可以使用git pull命令来更新拉取最新的代码，并使用git push命令将自己本地的修改推送到远程仓库。但是如果此时你本地关联

2023-12-15 09:27:14

635

CPU 1.75X1.75

THERMAL PAD CPU 1.75" X 1.75"

2024-03-14 20:50:16

CPU和GPU擅长和不擅长的地方

。 CPU微架构的设计是面向指令执行高效率而设计的，因而CPU是计算机中设计最复杂的芯片。和GPU相比，CPU核心的重复设计部分不多，这种复杂性不能仅以晶体管的多寡来衡量，这种复杂性来自于实现：如程序分支预测

2017-12-03 15:43:58

CPU和GPU擅长和不擅长的地方

架构的设计是面向指令执行高效率而设计的，因而CPU是计算机中设计最复杂的芯片。和GPU相比，CPU核心的重复设计部分不多，这种复杂性不能仅以晶体管的多寡来衡量，这种复杂性来自于实现：如程序分支预测，推测

2017-12-03 20:08:47

CPU有哪些分支

CPU是英语“Central Processing Unit”的缩写，指“中央处理单元”，是计算机的大脑，起到运算数据的作用，而CPU的指令调用、数据传输、各个设备的工作状态都需要CPU通过MPU

2021-07-28 06:57:32

分支程序

分支程序不喜勿喷

2013-06-30 20:39:46

预测

电赛预测

2017-08-03 15:20:09

GXWorks2程序写入CPU/从CPU读取程序的步骤有哪些

GXWorks2程序写入CPU/从CPU读取程序的步骤有哪些？

2021-09-28 08:49:29

IDC FutureScape对中国AR/VR市场的预测

2021-02-04 06:41:01

Labview如何实现预测

就是对于一个参数，知道前100天的数据，我要预测以后天数的预测，该如何做到

2016-05-03 10:59:39

PaddlePaddle使用预测模型预测图片报错及解决方法

PaddlePaddle使用预测模型预测图片时出现输出数据维度错误

2019-05-31 09:39:27

正在加载...

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

CPU分支预测对程序的影响

评论