深入剖析多线程计算平台的性能模型-电子发烧友网

在以前的文章里，笔者谈到单核CPU无论在PC端还是服务器上基本上已经退出历史舞台，目前主流的计算平台是使用多核（multiple cores）的CPU以及众核（many cores）的GPU。另外处理器与内存访问速度差距也不断增大，为克服访存瓶颈主要采用两种方法。

其中多核CPU与单核CPU都是利用Cache来掩盖访问系统内存的延迟，以减轻访存带宽的压力，其芯片的较大面积也都贡献给Cache。在另一端，GPU通过同时运行很多简单的线程，不使用或者只利用相对较小的Cache。

而主要通过线程间的并行（Thread Level Parallelism， TLP）来隐藏内存访问延迟，当一部分线程因为访存停滞的时候，另一部分线程会接着执行，使得处理单元不会空闲下来。

目前的异构计算平台同时采用这两种截然不同的架构，使得性能预测和优化都不太容易，面对一个给定的计算负载，我们应该如何分发能够达到性能最佳？对芯片架构师而言，在面积受限的芯片上，怎样合理部署处理单元、Register File和Cache等等也是让人挠头的事情。

希望能够为理解优化性能提供参考，论文作者定义了一个统一仿真模型可以容纳延展这两种不同特点的架构设计。这个模型对应一个想象的混合计算平台，该平台由很多简单的处理单元以及较大的共享缓存构成，通过灵活配置一系列参数，包括处理单元个数、缓存大小以及缓存和内存的访问延迟等等，可以观察不同参数变化对计算性能的影响。

为保持模型简单，论文假设所有线程相互不共享数据且系统内存带宽足够大。如下图所示，作者发现，当线程数量较少的时候，随着线程数量增加，性能开始提升，而当线程数量到达转折点，Cache不能够容纳所有线程的工作集的时候，性能反而下降。

之后，随着线程数量越来越多，由于有足够的线程来掩盖Cache访问不命中带来内存访问延迟，性能又接着上升，直达到平台可获得的最大性能。我们可以认为MC Region对应多核CPU的情形，而MT Region自然对应有超多线程的GPU，MC Region和MT Region之间的性能波谷区域在我们的架构设计和程序优化中都是要努力避免的。

以下我们具体推导下参数曲线对应的公式，下表列出计算模型涉及的参数，左边是平台相关的，右边跟运算任务有关。

公式（1）为考虑Cache命中率的线程平均访问内存所需要的时钟数。

这就是说，线程每运行1/rm条指令，就会因为访存停滞tavg时钟，如果没有别的线程替换进来，对应的处理单元就会处于空闲状态，要让该处理单元充分利用，额外需要的线程数为tavg/（CPIexe/rm）。所以要让整个计算平台满负荷运转，总共需要的线程数量为

NPE * （1 +tavg/（CPIexe/rm））。给定有n个线程的计算任务，计算平台的利用率η可以计算如公式（2）。

在η=1的情况下，再添加多余的线程于性能无补。根据利用率η我们可以得到计算平台的预期性能为NPE * （f/CPIexe）*η OPS（Operations Per Second，每秒钟运算数）。通过该公式，我们可以观察以下各种参数调节对性能曲线的影响。

值得注意的是以上计算中我们没有考虑内存带宽受限的情况，如果把它纳入考虑，对特定性能Perf ormance，我们可以按公式（3）计算所要求带宽。

所以在内存带宽也是约束条件的情况下，性能计算修正为公式（4）。

而下图也反映了内存带宽对性能曲线的影响。值得提醒的是性能曲线水平顶表示计算任务在该平台上已经触到了内存带宽墙（off-chip bandwidth wall），在这种情况下继续增加线程有可能会恶化Cache命中率，使得带宽问题更加严重反而有损性能，这也是为什么之前我们提到过的GPU显存带宽要远大于CPU系统内存带宽。

主要参考资料：

Many-core vs many-thread machines： Stay away from the valley

The Interplay of Caches and Threads in Chip-MultiProcessors

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10824

浏览量
211129
PC

PC

+关注

关注
9

文章
2065

浏览量
154017
内存

内存

+关注

关注
8

文章
2998

浏览量
73881
TLP

TLP

+关注

关注
0

文章
32

浏览量
15605

原文标题：多线程计算平台的性能模型

文章出处：【微信号：LinuxDev，微信公众号：Linux阅码场】欢迎添加关注！文章转载请注明出处。

socket 多线程编程实现方法

在现代网络编程中，多线程技术被广泛应用于提高服务器的并发处理能力。Socket编程是网络通信的基础，而将多线程技术应用于Socket编程，可以显著提升服务器的性能。 多线程编程的基本概

发表于 11-12 14:16 •211次阅读

Python中多线程和多进程的区别

Python作为一种高级编程语言，提供了多种并发编程的方式，其中多线程与多进程是最常见的两种方式之一。在本文中，我们将探讨Python中多线程与多进程的概念、区别以及如何使用线程池与进程池来提高并发执行效率。

发表于 10-23 11:48 •313次阅读

深入剖析石英 CMOS 振荡器 PC3225 系列（1 to 200 MHz）的卓越性能

发表于 08-08 10:14 •314次阅读

<b class='flag-5'>深入</b><b class='flag-5'>剖析</b>石英 CMOS 振荡器 PC3225 系列（1 to 200 MHz）的卓越<b class='flag-5'>性能</b>

从多线程设计模式到对 CompletableFuture 的应用

最近在开发延保服务频道页时，为了提高查询效率，使用到了多线程技术。为了对多线程方案设计有更加充分的了解，在业余时间读完了《图解 Java 多线程设计模式》这本书，觉得收获良多。本篇文章将介绍其中

发表于 06-26 14:18 •274次阅读

从<b class='flag-5'>多线程</b>设计模式到对 CompletableFuture 的应用

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

计算的特性，搭建出基于 PYNQ 集群的通用低功耗的大规模类脑计算平台，并通过皮质层视觉仿真模型、HPC Benchmark 等进行了结果验证和性能

发表于 06-25 18:35

摩尔线程与智谱AI完成大模型性能测试与适配

近日，摩尔线程与智谱AI在人工智能领域开展了一轮深入的合作，共同对GPU大模型进行了适配及性能测试。此次测试不仅涵盖了大模型的推理能力，还涉

发表于 06-14 16:40 •1013次阅读

鸿蒙APP开发：【ArkTS类库多线程】TaskPool和Worker的对比

TaskPool（任务池）和Worker的作用是为应用程序提供一个多线程的运行环境，用于处理耗时的计算任务或其他密集型任务。可以有效地避免这些任务阻塞主线程，从而最大化系统的利用率，降低整体资源消耗，并提高系统的整体

发表于 03-26 22:09 •584次阅读

java实现多线程的几种方式

Java实现多线程的几种方式 多线程是指程序中包含了两个或以上的线程，每个线程都可以并行执行不同的任务或操作。Java中的多线程可以提高程序

发表于 03-14 16:55 •577次阅读

AT socket可以多线程调用吗？

请问AT socket 可以多线程调用吗？有互锁机制吗，还是要自己做互锁。

发表于 03-01 08:22

什么是多核多线程？多核多线程如何提高程序的运行效率？

单线程无法充分利用多核处理器的并行计算能力。

发表于 02-20 10:22 •1267次阅读

redis多线程还能保证线程安全吗

Redis是一种使用C语言编写的高性能键值存储系统，它是单线程的，因为使用了多路复用的方式来处理并发请求。这样的实现方式带来了很好的性能，但同时也引发了一些线程安全方面的问题。在Re

发表于 12-05 10:28 •1690次阅读

redis使用多线程处理操作命令

Redis 是一个使用多线程处理操作命令的开源内存数据库系统。它以其高性能、可扩展性和灵活性而闻名，通常被用作缓存、消息代理和数据存储等各种应用场景。在本文中，我们将详尽、详实、细致地探

发表于 12-05 10:25 •545次阅读

深入剖析高速SiC MOSFET的开关行为

深入剖析高速SiC MOSFET的开关行为

发表于 12-04 15:26 •897次阅读

mfc多线程编程实例

（图形用户界面）应用程序的开发。在这篇文章中，我们将重点介绍MFC中的多线程编程。 多线程编程在软件开发中非常重要，它可以实现程序的并发执行，提高程序的效率和响应速度。MFC提供了丰富的多线程支持，可以轻松地实现

发表于 12-01 14:29 •1439次阅读

搜索历史

深入剖析多线程计算平台的性能模型

评论

socket 多线程编程实现方法

Python中多线程和多进程的区别

深入剖析石英 CMOS 振荡器 PC3225 系列（1 to 200 MHz）的卓越性能

ESP32会不会有多线程问题，需要加锁吗？

从多线程设计模式到对 CompletableFuture 的应用

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

摩尔线程与智谱AI完成大模型性能测试与适配

鸿蒙APP开发：【ArkTS类库多线程】TaskPool和Worker的对比

java实现多线程的几种方式

AT socket可以多线程调用吗？

什么是多核多线程？多核多线程如何提高程序的运行效率？

redis多线程还能保证线程安全吗

redis使用多线程处理操作命令

深入剖析高速SiC MOSFET的开关行为

mfc多线程编程实例