0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全解GPU软件生态、场景、发展与局限性

智能计算芯世界 来源:智能计算芯世界 2023-01-06 14:41 次阅读

197bd122-8d8c-11ed-bfe3-dac502259ad0.png

GPU作为一种协处理器,传统用途主要是处理图像类并行计算任务;计算机系统面对的计算任务有着复杂而不同的性能要求,当 CPU 无法满足特定处理任务时,则需要一个针对性的协处理器辅助计算。GPU 就是针对图像计算高并行度,高吞吐量,容忍高延迟而定制的并行处理器。

本文选自“从软件算法生态看GPU发展与局限”,介绍GPU原理、GPU场景等,具体内容如下:

第一章、GPU 简介1.1、GPU是什么? 1.2、为什么需要GPU等协处理器? 1.3、GPU还能干什么? 1.4、GPU不适合干什么? 1.5、GPU总体市场现状第二章、GPU 未来面临挑战应用场景解析2.1 谷歌披露实用的全新人工智能专用协处理器:TPU 2.2 TPU 主要思路:针对人工智能算法需求裁剪计算精度 2.3 从谷歌 TPU 设计思路看人工智能硬件发展趋势 2.4 GPU/FPGA 用于神经网络计算的弱点:片上网络第三章、GPU 未来较适应场景解析3.1 VR应用:持续增长的优势领域 3.2 云计算/大数据应用

3.3 GPU,云和游戏服务结合

第一章、GPU简介

GPU其原始设计针对图像计算的特性进行优化,因此也能兼职一些与图像计算特性接近的大规模并行标准浮点数计算任务,如科学计算与数值模拟。但大规模并行计算并非一个笼统的概念,而是一个可以按照计算性能需求在6个维度上进行细分的大类别。因此GPU绝非解决大规模并行计算问题的万金油,无法很好的支持与图形计算特性相差较大的并行计算任务。

1.1、GPU 是什么?

GPU其他名称有显示核心、视觉处理器、显示芯片。顾名思义,GPU最主要的应用场景就是处理图像显示计算。计算机图像显示流程见图,在这个过程中CPU决定了显示内容,而GPU则决定了显示的质量如何。像GPU这类辅助CPU完成特定功能芯片统称“协处理器”,“协”字表明了GPU在计算机体系中处于从属地位。

19ab6cde-8d8c-11ed-bfe3-dac502259ad0.png

GPU芯片可根据与CPU的关系分为独立GPU和集成GPU。独立GPU通常图形处理能力更高一些,但也有成本更高,功耗和发热较大等问题。近年集成式GPU流行于移动计算平台如笔记本和智能手机。例如高通智能手机芯片通常将CPU和一个功能较弱的GPU以及其他协处理器通过SoC(System on Chip,片上系统)技术组合在一起。集成GPU图形计算性能相对独立GPU较弱但功耗/成本均针对了移动计算平台的需求做了优化,将长期占据移动计算市场。

19c36fe6-8d8c-11ed-bfe3-dac502259ad0.png

1.2、为什么需要 GPU 等协处理器?

在计算机系统中,之所以出现GPU等协处理器,归根到底在于没有一种芯片设计方案能够满足所有不同类别计算任务所需求的全部性能指标:

计算精度;

计算并行度;

计算延迟;

计算吞吐量;

并行进程之间的交互复杂度;

计算实时性要求;

鱼和熊掌不可兼得;在设计计算机芯片中,以上六个指标不可能在有限的资源约束下同时满足。图的雷达图比较了CPU的设计偏向(蓝线)以及图形计算的要求(红线),越靠近外圈则表示要求高/性能好,如计算延迟低、计算吞吐量大。

19df970c-8d8c-11ed-bfe3-dac502259ad0.png

我们可以发现CPU设计的一部分偏好,如并行进程交互能力强,低计算延迟是图形计算所不需要的;但图形计算要求的高计算并行度,高计算吞吐量是CPU所不能提供的。将CPU应用在图形处理中会造成一部分性能被浪费,而另一些性能CPU无法满足要求(雷达图上红线和蓝线的显著差异);这提供了GPU这种针对图形技术优化芯片性能指标的协处理器的生存空间。 在广义计算系统体系中,其他类别的协处理器,如DSP,FPGA,BP等协处理器之所以独立存在,均因为其所处理的特定计算任务在计算指标雷达图中与CPU以及其他协处理器差异过大。一个协处理器产业是否有足够的市场空间主要取决于其针对的计算任务在性能雷达图中是否独特(否则会被CPU等“兼职”),以及这种计算任务是否有足够大市场需求。

1.3、GPU 还能干什么?

GPU生产厂商针对图形处理的性能要求将资源分配强化两个特定指标:计算并行度和计算吞吐量。除了图形计算以外,还有一些计算任务的性能雷达图落在GPU的性能范围内或相差不甚太远(见图),比如数值仿真模拟、金融类计算、搜索引擎、数据挖掘等。

1a0f49fc-8d8c-11ed-bfe3-dac502259ad0.png

正因看中拓展GPU在特殊计算任务的应用前景,主流的GPU厂商纷纷推出软硬件结合的并行编程解决方案。例如Nvidia推出闭源的CUDA并行计算平台,而AMD推出了基于开放性OpenCL标准的Stream技术。这类技术在软件上提供一个定制的编译器,将计算任务尽可能分解成可独立并行执行的小组件(术语为“线程”);在硬件上对GPU进行小幅度修改,少量提高其在延迟/并行交互等传统弱项的性能。 虽然GPU的并行计算能力与金融数据处理需求存在一定匹配(图4中红线和蓝线相近),但金融核心账本计算中需要远超过一般计算平台的精度。GPU内部搭载的2进制计算单元无法保障账本分毫不差;金融业的核心账本计算业务长期依赖搭载10进制计算单元的IBM Power系列高端处理器。如果改造GPU使其搭载10进制硬件计算单元,则其又无法适应图形计算的需求。这个案例充分说明:并非所有并行计算任务就一定适合GPU计算,而需要根据实际情况区分。

1.4、GPU 不适合干什么?

GPU属于大规模并行计算芯片的一个子类;但其并不能解决所有的大规模并行计算任务。大规模并行计算芯片可粗略划分为两大组成部分:

1)并行计算单元,数目从数个至数千个不等,完成“线程”计算;

2)NoC(Network on Chip,片上通讯网络),负责在计算单元之间传递数据; 针对不同的计算需求场景,大规模并行计算芯片的设计思路大体有两个方向: 1)处理单元优化:包括增减处理器单元数量或改变处理器单元内部的结构等; 2)NoC网络优化:更改网络拓扑、网络路由算法、优化网络控制机制等; 这两个方向上的优化需要分享芯片上有限的资源;强化一个方向的性能/增加某个方向的资源分配往往就意味着需要牺牲另一个方向的性能。 多核CPU、GPU、FPGA是常见的并行计算架构,它们的资源分配倾向示意图见图。

1a2602c8-8d8c-11ed-bfe3-dac502259ad0.png

GPU将主要资源分配给了图形常用计算单元,如浮点数的乘法和加法,而采用了最简单的片上网络拓扑:树状NoC网络,在基本计算单元之间传递数据,见图; 这种片上网络的优缺点分别是:

优点1:消耗的资源最小;

缺点1:通过读写片上存储的方式传递数据,速度较慢;

缺点2:树根结点容易因通讯堵塞成为瓶颈,如图中红线和蓝线分别表示A计算节点向B,C向D传递数据,两个传递过程在根节点和二级共享节点交汇,当片上数据传递频繁时,树状拓扑NoC极易发生堵塞问题。

1a38f7de-8d8c-11ed-bfe3-dac502259ad0.png

GPU之所以采用树状拓扑结构,概因其“主业”-图形计算仅有少量情形需要在计算节点之间做复杂数据通信,因此采用树状拓扑以外的方案是纯粹的浪费。但树状拓扑结构限制了相当多类别的大规模并行计算任务在GPU上发挥,换句话说,下列这些并行计算任务并不是GPU扩展的强项:

带有较多分支判断类的并行计算任务,典型任务如人机交互、电脑和环境交互中的逻辑判断计算等;

并行计算中带有较多串行成分,以及反馈算法的并行计算任务,典型例子如控制系统计算任务;

带有网状结构数据流的并行计算。典型案例为FFT(傅里叶分析)计算任务,CUDA中的FFT优化后可以提供相对CPU约10倍的提速,但当FFT长度超过某个门限后GPU的提升性能就发生下滑(资料来源:NV官网)。DSP芯片往往针对FFT的算法特性提供定制优化,没有GPU存在的问题,因此手机SoC中往往由DSP而不是GPU处理FFT这种网状大规模并行计算。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10825

    浏览量

    211150
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4701

    浏览量

    128705
  • 计算机图像
    +关注

    关注

    2

    文章

    5

    浏览量

    2238

原文标题:全解GPU软件生态、场景、发展与局限性

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    关于欧盟法规中测试场景的研究

    关于欧盟法规中测试场景的研究 1.引言   场景是智能网联汽车测试技术的基础,基于场景的功能测试方法对于弥补基于里程的测试方法的局限性,提高系统开发效率、产品落地效率等方面都有重要作用
    的头像 发表于 11-25 16:32 30次阅读
    关于欧盟法规中测试<b class='flag-5'>场景</b>的研究

    D类放大器上仅电容EMI滤波器的局限性

    电子发烧友网站提供《D类放大器上仅电容EMI滤波器的局限性.pdf》资料免费下载
    发表于 09-14 10:44 0次下载
    D类放大器上仅电容EMI滤波器的<b class='flag-5'>局限性</b>

    直流输电的优势与局限性

    直流输电的优势 直流输电技术在现代电力系统中扮演着不可或缺的角色,其独特的优势使得远距离、大容量的电力传输成为可能。与交流输电相比,直流输电展现出一系列显著的优点。 首先,直流输电不存在交流输电中的稳定问题。当使用直流线路连接两个交流系统时,由于直流线路无电抗特性,因此不会引发两端交流发电机需同步运行的稳定性问题。这一点对于远距离、大容量的电力传输至关重要,确保了电力系统的稳定与可靠。 其次,高压直流输
    的头像 发表于 08-19 17:33 478次阅读

    微通道反应器目前的局限性

    ,可以实现物料的瞬间均匀混合和高效的传热,因此许多在常规反应器中无法实现的反应都可以微反应器中实现。 从结构特点上来说,目前微通道反应器应用与局限性如下 1. 反应本身速度很快,但受制于传递过程的,整体反应速度偏
    的头像 发表于 08-12 14:23 215次阅读

    WDM技术的缺点和局限性

    和效率。然而,尽管WDM技术具有诸多优势,但它也存在一些缺点和局限性。以下是对WDM技术缺点和局限性的详细分析:
    的头像 发表于 08-09 11:42 625次阅读

    RISC-V在中国的发展机遇有哪些场景

    汽车、数据中心和高性能计算、嵌入式系统等多个场景。随着中国市场的不断发展和RISC-V生态的逐步完善,RISC-V有望在未来成为中国信息技术领域的重要力量。
    发表于 07-29 17:14

    灯箱屏未来:技术突破与应用局限揭秘

      在现代科技的飞速发展中,灯箱屏作为一种重要的展示工具已经广泛应用于广告、交通指引、公告信息发布等多个领域。随着技术的不断进步,灯箱屏的未来发展潜力巨大,但同时也可能会遇到一些局限性。  从技术
    的头像 发表于 07-03 11:22 265次阅读

    FPGA的优势及潜在局限性介绍

    了解FPGA器件何时适合实现所需的系统功能是理解FPGA技术的关键要素。设计团队明白FPGA技术并不适用于每一个设计或应用程序。
    发表于 04-16 10:36 1154次阅读
    FPGA的优势及潜在<b class='flag-5'>局限性</b>介绍

    高光谱成像技术如何改善现有遥感技术的局限性?

    随着科技的不断进步,遥感技术在地球观测、资源管理、环境监测等领域中发挥着日益重要的作用。然而,传统的遥感技术在分辨率、准确性和信息获取能力等方面存在一定的局限性。为了克服这些局限性,高光谱成像技术
    的头像 发表于 02-21 10:52 523次阅读
    高光谱成像技术如何改善现有遥感技术的<b class='flag-5'>局限性</b>?

    超导材料在输电领域的应用前景、优势和局限性

    超导材料适合作为输电导线的潜力一直备受瞩目。与传统的金属材料相比,超导材料具有低电阻和高电流载流能力的独特优势。本文将深入探讨超导材料在输电领域的应用前景、优势和局限性。 在高科技时代,全球对电能
    的头像 发表于 01-17 11:29 1363次阅读

    GPU技术、生态及算力分析

    对比AMD从2013年开始建设GPU生态,近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力,且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件
    的头像 发表于 01-14 10:06 1180次阅读
    <b class='flag-5'>GPU</b>技术、<b class='flag-5'>生态</b>及算力分析

    从KMGTP和mµnpf看技术的发展局限性

    这篇文章提出了一个“技术自由空间”的概念,并应用了一种MmT坐标系。
    的头像 发表于 01-05 10:01 995次阅读
    从KMGTP和mµnpf看技术的<b class='flag-5'>发展</b>及<b class='flag-5'>局限性</b>

    新型光开关可提高计算机处理器速度

    由于电子开关的局限性,传统的计算机处理器几乎已经达到了它们的“时钟速度”(衡量它们可以打开和关闭的速度的指标)。希望改进计算机处理器的科学家已经对光开关的潜力产生了兴趣,光开关使用光而不是电来控制数据在芯片上的处理和存储方式
    的头像 发表于 12-25 14:55 634次阅读
    新型<b class='flag-5'>全</b>光开关可提高计算机处理器速度

    探讨碳化硅材料在制备晶圆过程中的关键技术和优势

    随着信息技术的快速发展和对高效能电子器件的需求不断增长,传统硅材料在面对一些特殊应用场景时已经显示出其局限性
    的头像 发表于 12-25 10:15 1348次阅读
    探讨碳化硅材料在制备晶圆过程中的关键技术和优势

    碳化硅二极管的优点和局限性分析

    碳化硅二极管的优点和局限性分析 碳化硅(SiC)二极管是一种新型半导体材料,在高频电源电子装置中得到了广泛应用。与传统的硅(Si)材料相比,碳化硅二极管具有许多优点和局限性。下面是对碳化硅二极管
    的头像 发表于 12-21 11:31 2273次阅读