0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文走进多核架构下的内存模

OSC开源社区 来源:OSC开源社区 2023-02-03 15:04 次阅读

走进多核编程

CPU 发展早期阶段,性能的提升主要来自于主频的提升和架构的优化,当这条优化途径出现瓶颈后,多核 CPU 开始流行起来。多核心同时执行任务极大地提高了系统整体性能,但也对硬件架构和软件编写提出了更大的挑战。各个核心都有自己的 Cache,以及不同层级的 Cache,彼此共享内存。一个典型的多核 CUP 架构如下图所示:

b4603fc2-a38d-11ed-bfe3-dac502259ad0.png

利用多核心的优势在各个核之间互相配合完成任务,如何进行各个核心间的数据同步(各个核心所属 L1 Cache/L2 Cache 数据的同步)是问题的关键所在。虽然发展出多种数据同步方式,以及流水线乱序执行的模式,但数据在各个核之间的一致性和可见性并不是那么理想;再加上编译器也会做优化,最终导致各个核的指令执行顺序和各个变量值的可见性变得不确定。

这种现象可以通称为重排,即原本应该有全序的内存读写操作被打乱。不过无论产生什么样的重排,都会保证对于单线程内部的执行结果不会有任何区别。下面是一个简单例子:

1. //Thread1

2. //readywasinitializedtofalse

3. p.init();

4. ready=true;

1. //thread2

2. if(ready){

3. p.bar();

4. }

对于 Thread 1 内部,p 和 ready 没有关联,完全可以被重排而不影响正确性,而 Thread 2 依赖 ready 做标识位,一旦重排,Thread 2 在看到 ready 为 true 的时候 p 都可能没有 init,显然这是有问题的。

多核编程中临界区保护

利用多线程做并发的任务中通常都会有公共的临界区,比如最常用的一种数据结构:并发队列,生产者和消费者需要访问队列的公共内存进行写入和读取。目前对于临界区的保护方式通常可以分为三个级别:互斥、Lock-free 和 Wait-free。

1、

互斥,顾名思义每个线程访问临界区之前都需要获得互斥锁,如果被别的线程占用了就阻塞等待。当进入临界区的线程发生阻塞,或被操作系统换出时,会出现全局阻塞,因为获得锁的线程被换出无法执行操作,而未获得锁的线程也只能一同等待,出现了阻塞传播。如果另一个线程先进入临界区,有可能反而可以更快的顺利完成。因为存在全局阻塞的可能性,采用互斥技术进行临界区保护的算法有着最低的阻塞容忍能力。

2、Lock-free

Lock-free 允许单个线程阻塞,但是会保证系统整体层面上的吞吐。如果当程序线程运行足够长时间的情况下,至少有一个线程取得了进展,那么就可以说这个算法是 Lock-free 的。如果一个线程被挂起,那么 Lock-free 算法保证剩余的线程仍然可以进行。

使用锁的代码一定不是 Lock-free 的,因为一个线程加锁后如果被系统切出去了,其他所有线程都处于等待中。但是没用锁也不一定是 Lock-free,因为普通的代码逻辑也可能会导致一个线程夯住另一个线程。锁之所以在高并发的时候表现很差,主要原因是加锁的线程会夯住其他等待加锁的线程,Lock-free 可以很好地解决这一问题。

在实现上一般先假设临界区不存在竞争,各个线程直接开始在临界区的执行,执行过程中通过良好的程序设计,让这段预先的执行是无冲突并且是可回滚的。最终有一个需要同步的提交操作,一般基于原子变量 CAS 操作,或者版本校验等机制完成。在提交阶段如果发生冲突,那么被仲裁为失败的各方需要对临界区预执行进行回滚,并重新发起一轮尝试。

注意,并不是说 Lock-free 的算法就一定比加锁的算法好,Lock-free 需要处理更多更复杂的 race condition 移机 ABA 等问题,编写出合理的 Lock-free 代码也需要更深厚的技术功底,需要对底层有更多地了解,完成相同目的的代码会比用锁更复杂,执行时间可能更长,代码也更难理解。

很多场景下合理地使用锁就能很好的胜任,Lock-free 和锁之间在应用场景上更多的是一种互补的关系。Lock-free 算法的价值在于其保证了一个或所有线程始终在做有用的事,而不是绝对的高性能。但 Lock-free 相较于锁在并发度高(竞争激烈导致上下文切换开销变得突出)的某些场景下会有很大的性能优势,比如实现一个多线程的 Lock-free queue。总的来说,在多核环境下,Lock-free 是很有意义的。

3、Wait-free

Lock-free 技术主要解决了临界区内的阻塞传播问题,但是本质上,依然是多个线程排队顺序经过临界区。而 Wait-free 和 Lock-free 的主要区别也就体现在系统吞吐上。在无全局停顿的基础上,Wait-free 进一步保障了执行任意算法的线程,都应该在有限的步骤内完成。不只是整体算法时时刻刻都存在有效计算,每个线程依然是需要持续进行有效的计算。这就要求多线程在临界区内不能被细粒度地串行起来,而必须是同时都能进行有效计算。虽然理论角度存在不少有 Wait-free 的算法,但大多并不具备工业使用的价值。

4、相关技术

Lock-free 和 Wait-free 编程中最重要的两个相关技术就是原子操作和控制 Memory Order。

CPU 保证没有线程能观察到原子操作的中间态,也就是说一个原子操作对于所有的线程来说要么做了要么没做。原子操作主要包括赋值原子操作、Read-Modify-Write(比如C++ 11里的fetch_add)、Compare-And-Swap(比如 C++ 11 里的 Compare_exchange_strong)等操作。原子操作保证了各线程在进行共享内存的存取的时候能读到完整的值。

Memory Order 即内存排序,指 CPU 访问主存的顺序。可以是编译器在编译时产生,也可以是 CPU 在运行时产生。为了充分利用不用内存的总线带宽,现代处理器大多是乱序执行的。无锁算法没有显式的锁,将会直接观察到这些和代码顺序不一致的重排,C++ 11 引入的 Memory Order 给使用者提供了一种跨平台的通用方法来限制上述两种重排。

Memory Order

Memory Model 内存模型,定义了特定处理器上或者工具链上的重排情况。某个处理器或者工具链对代码的重排会严格遵循对应的 Memory Model。这里讨论的重排只是针对单个线程内部在单个核内的指令的执行顺序问题。可以理解为指定 Memory order,就是通过限制重排来保证共享数据的可见性和正确同步。

1、Reorder 类型和 Memory Order 的强弱

对内存的操作可以概括为读和写,可以表示为 Load 和 store 操作,因此 Reorder 也就可以整体上分为以下四种类型:

  • Load-load reorder:两个读操作之间重排;

  • Load-store reorder:原来在写操作之前的读操作重排到之后;

  • Store-load reorder:原来在读操作之前的写操作重排到之后;

  • Store-store reorder:两个写操作之间重排。

Memory Model 既有软件层面的 Software Memory Model,又有硬件平台的 Hardware Memory Model,下图中是几种 CPU 架构下的 Hardware Memory Model。

b47f9084-a38d-11ed-bfe3-dac502259ad0.png

  • DEC Alpha 架构下,上述四种 Reorder 都有可能发生,只保证不改变单线程内部的执行正确性。

  • ARM 架构下的 CPU 也允许四种 Reorder 的发生,额外保证了数据依赖顺序。

  • X86/X64 平台属于强 Memory Model 的范畴,只可能发生 Store-load reorder。

  • C++ 11 中原子操作的内存序属于 Software Memory Model 的范畴,在软件层面进行相关限制,让 CPU 实现相应操作的效果。

2、Compiler Barrier 与 Runtime Memory Barrier

无论是哪种 Memory Model 中涉及的重排,都是指的在没有其他限制的情况。为了能够保证程序的正确性,CPU 和编译器(语言)的设计者都预留了手方法来改变这些重排,这类方法可以抽象成一个统一的概念 Barrier:屏障。需要使用者用代码来限制编译阶段和运行阶段的重排,因此可以分为 Compiler Barrier 和 Runtime Memory Barrier。

Compiler Barrier,编译器层面的屏障,可以防止编译器在将源码转换成机器码的过程中重排。简单的例子如下:

inta,b;
intmain()
{
 a=b+1;
//asmvolatile("":::"memory");
b=0;
return0;
}

对于以上代码,使用 gcc 4.9.4 整体不开启优化进行编译,得到汇编代码如下:

  $ gcc -S main.cpp  
  $ cat main.s  
...
movl_b(%rip),%eax
addl$1,%eax
movl%eax,_a(%rip)
movl$0,_b(%rip)
movl$0,%eax
popq%rbp
...

同样使用 gcc 4.9.4 整体开启优化进行编译,得到汇编代码如下:

$gcc–O2-Smain.cpp
$catmain.s
...
movl_b(%rip),%eax
movl$0,_b(%rip)
addl$1,%eax
movl%eax,_a(%rip)
xorl%eax,%eax
...

如果想要整体开启优化,但是对于部分代码不想要重排,那么就可以使用 Compiler Barrier,在 gcc 里,asm volatile("" ::: “memory”)就是这么一个 Compiler Barrier。在使用 Compiler Barrier 后,使用使用 gcc 4.9.4 整体开启优化进行编译,得到汇编代码如下:

$gcc-O2-Smain.cpp
$catmain.s
...
movl_b(%rip),%eax
addl$1,%eax
movl%eax,_a(%rip)
movl$0,_b(%rip)
xorl%eax,%eax
...

可以看到和未开启编译优化时的结果保持一致。

Compiler Barrier 只能保证编译阶段不重排。在多核系统里,光做到这一点还不够,因为它没法对 CPU 核心运行时的重排做出限制。因此,在多核编程中,通常需要同时对编译重排和运行时重排做出限制,需要使用到 Runtime Memory Barrier。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10863

    浏览量

    211799
  • 架构
    +关注

    关注

    1

    文章

    514

    浏览量

    25475
  • 单线程
    +关注

    关注

    0

    文章

    17

    浏览量

    1772

原文标题:一文走进多核架构下的内存模

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AUTOSAR架构多核通信介绍

    随着汽车ECU迅速的往域控制器方向发展,ECU要处理的任务越来越多,单核CPU的负载越来越大,多核ECU势在必行。AUTOSAR架构OS支持多核处理,本系列文章将详细介绍AUTOSA
    的头像 发表于 11-13 09:24 2346次阅读
    AUTOSAR<b class='flag-5'>架构</b><b class='flag-5'>下</b>的<b class='flag-5'>多核</b>通信介绍

    数字信号处理器重新采纳多核架构

    。许多DSP应用开发人员正因为算法划分困难而回避多内核方法。也有些任务(如加密)不支持并行运算。这并不是说多核方法未尝试与DSP亲近过。PicoChip公司很早前推出的picoArray架构就整合了
    发表于 04-09 23:14

    以全新的多核SoC架构进行LTE开发

    对于MIMO计算般,TI全新架构中不可或缺的浮点支持可大幅简化及加速必要的处理,因为原生浮点支持十分有助于矩阵求逆。多核共享内存控制器另
    发表于 07-14 14:40

    嵌入式实时系统多核负载均衡调度架构的相关资料推荐

    ,但高负载场景无法实时优化多核负载,造成任务延迟。本文介绍了多核实时负载均衡的调度架构,均衡多核CPU资源,提高任务处理效率和系统实时响
    发表于 12-14 07:25

    介绍在ARM64架构启动多核的两种方式

    1、ARM64的多核启动流程分析工作中遇到的多核 ARM CPU 越来越多,总结分享多核启动的知识,希望能帮助更多小伙伴。在 ARM64 架构
    发表于 06-13 18:23

    TI推出最新多核SoC架构,实现5倍性能提升

    TI推出最新多核SoC架构,实现5倍性能提升 日前,德州仪器(TI)宣布推出款基于 TI 多核数字信号处理器(DSP)的新型片上系统(SoC)
    发表于 02-26 08:38 638次阅读

    多核处理器架构及调试

      认识多核基本架构   多核处理器在同个芯片中植入了多个处理器引擎,这就可以提供更高的CPU性能、功能特性和分区能力。般说来,
    发表于 08-26 18:08 1337次阅读

    多核架构及编程技术

    多核平台测试与Windows环境的编程 Windows系统多线程编程 Windows系统OpenMP编程 Windows系统IPP编
    发表于 06-14 11:27 36次下载
    <b class='flag-5'>多核</b><b class='flag-5'>架构</b>及编程技术

    多核处理器架构及调试方案  

    认识多核基本架构 多核处理器在同个芯片中植入了多个处理器引擎,这就可以提供更高的CPU性能、功能特性和分区能力。般说来,
    发表于 10-25 10:23 0次下载

    基于共享内存多核数据结构研究

    随着计算机硬件技术的发展,如今我们已经迈入了多核CPU时代.然而,作为软件核心的数据结构仍然是按照单核CPU和顺序型准则来设计的.在基于共享内存多核时代,大量并发运行的线程会交替地修改数据,产生
    发表于 01-15 11:34 0次下载

    Linux操作系统知识讲解:走进内存

    Linux操作系统知识讲解:走进内存
    的头像 发表于 08-28 10:30 2365次阅读
    Linux操作系统知识讲解:<b class='flag-5'>走进</b><b class='flag-5'>内存</b>

    NUMA架构内存数据库命令日志故障恢复

    NUMA架构内存数据库命令日志故障恢复
    发表于 06-24 16:26 26次下载

    走进多核编程

    CPU 发展早期阶段,性能的提升主要来自于主频的提升和架构的优化,当这条优化途径出现瓶颈后,多核 CPU 开始流行起来。
    的头像 发表于 02-03 15:02 1409次阅读

    基于Tricore架构的RTThread多核实现

    在《基于Hightec+TC375TP的RT-Thread移植详解 》中,基于Tricore实现了单核RTThread的移植。最近,花了些时间完成遗留的任务:基于Tricore的多核移植。目前
    的头像 发表于 09-12 18:40 1186次阅读

    基于Tricore芯片的AUTOSAR架构多核启动

    随着汽车ECU迅速的往域控制器方向发展,ECU要出来任务越来越多,单核CPU的负载越来越大,多核ECU势在必行。AUTOSAR架构OS支持多核处理,本系列文章将详细介绍AUTOSAR
    的头像 发表于 10-23 10:15 3243次阅读
    基于Tricore芯片的AUTOSAR<b class='flag-5'>架构</b><b class='flag-5'>下</b>的<b class='flag-5'>多核</b>启动