0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详细解析GPU的算法的3大优势以及并行化的研究问题

Dbwd_Imgtec 2018-01-19 15:49 次阅读

GPU计算的目的即是计算加速。相比于CPU,其具有以下三个方面的优势:

1

并行度高:GPU的Core数远远多于CPU,从而GPU的任务并发度也远高于CPU;

2

内存带宽高:GPU的内存系统带宽几十倍高于CPU;

3

运行速度快:GPU在浮点运算速度上较之CPU也具有绝对优势。

另一方面,GPU采用的SIMD(Single Instruction Multiple Data)架构,这决定了其对执行的任务具有特定的要求(如不适合判断逻辑过多的任务,数据大小不可控的任务等)。而且,应用程序在GPU上也需有特定的实现,包括算法的GPU并行化,程序的定制等。因此,针对GPU并行处理的研究成为一大研究热点。

现有GPU采用SIMD方式执行,即所有线程块在同一时刻执行相同的程序,从而若这些线程块处理的数据量相差大,或计算量分布不均,便会带来线程块的负载不均,进而影响整个任务执行效率。这类问题实则常见的Skew Handling或Load Inbalance问题。

应用算法的GPU并行化之所以成为一个研究问题而不仅仅是工程问题,这其中的主要的问题在于

1GPU不支持内存的动态分配,从而对于输出结果大小不确定的任务是一个极大的挑战;2GPU的SIMD特性使得很多算法不易很好实现,即如何充分利用GPU线程块的并行度;3共享数据的竞争读写,共享数据的锁机制带来大量的等待时间消耗。

GPU作为一种协处理器,其的执行受CPU调度。在实际应用中,GPU更多的也是配合CPU工作,从而基于CPU/GPU异构系统的统一任务调度更具实用意义,也是有关GPU的重要研究方面。

GPU采用SIMD架构,各线程块在同一时刻执行相同的Instruction,但对应的是不同的数据。但事实上,GPU线程块具有如下特征:

每个线程块只对应于一个的流处理器(SM),即其只能被该对应的SM执行,而一个SM可以对应多个线程块;SM在执行线程块时,线程块中的线程以Warp(每32个线程)为单位调度及并行执行;

线程块内的线程可同步,而不同线程块的同步则只能由CPU调用同步命令完成;

不同线程块的运行相互独立。

因此,为不同的线程块分配不同的任务,使得GPU做到任务并行,最大化GPU的利用成为可能并具有重要的研究意义。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4768

    浏览量

    129264
  • 并行化
    +关注

    关注

    0

    文章

    9

    浏览量

    2862

原文标题:基于GPU的算法并行化

文章出处:【微信号:Imgtec,微信公众号:Imagination Tech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    264.并行算法(5)GPU工作原理

    gpu并行
    小凡
    发布于 :2022年10月04日 14:15:48

    【招聘】算法、图像检索、嵌入式、测试、架构、GPU优化等职位(bj&sh)

    、测试等 3、参与视觉应用软件和相关自动化工具的开发和维护。 GPU优化工程师 职责: 1、计算机视觉和深度学习相关算法GPU/AI芯片上的实 要求: 1、精通
    发表于 02-28 14:23

    请问Mali GPU并行计算模型是怎样构建的?

    Mali T604 GPU的结构是由哪些部分组成的?Mali T604 GPU的编程特性有哪些?Mali GPU并行计算模型是怎样构建的
    发表于 04-19 08:06

    求大佬分享一种基于GPU的Voronoi图并行栅格生成算法

    本文重点研究了Voronoi图的栅格生成方法,首先比较了常见的栅格方法生成Voronoi图的优缺点,然后结合CUDA的出现,提出一种基于GPU的Voronoi图并行栅格生成算法
    发表于 06-01 06:44

    基于GPU并行APSP问题的研究

    Floyd-Warshall算法是图论中APSP(All-Pair Shortest Paths )问题的经典算法,为了加快计算速度,提出使用GPU通用计算来实现。文章先从算法的原理入
    发表于 09-12 16:11 19次下载

    基于GPU的遥感图像融合并行算法研究

    基于通用GPU并行计算技术,结合遥感图像数据融合处理特点,利用NVIDIA公司的CUDA编程框架,在其 GPU平台上对BROVEY变换和YIQ变换融合算法进行了
    发表于 09-23 18:05 22次下载

    虚拟环境下多GPU并行计算研究

    虚拟环境下多GPU并行计算研究_闵芳
    发表于 01-03 15:24 0次下载

    基于GPU并行运动目标检测方法的研究

    在智能视频监控领域中,运动目标检测已经成为主要研究课题之一,针对传统的方向梯度直方图(HOG)算法并行程度低等问题,采用了基于嵌入式GPU
    发表于 11-15 11:33 7次下载
    基于<b class='flag-5'>GPU</b>的<b class='flag-5'>并行</b><b class='flag-5'>化</b>运动目标检测方法的<b class='flag-5'>研究</b>

    JPEG压缩算法并行设计

    方面并行性的优势,提出了基于OpenCL的JPEG压缩算法并行设计方法。将JPEG算法功能分解
    发表于 11-21 16:57 4次下载
    JPEG压缩<b class='flag-5'>算法</b><b class='flag-5'>并行</b><b class='flag-5'>化</b>设计

    基于Spark的BIRCH算法并行的设计与实现

    在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行的设计和实现,经过理论性能分析得到
    发表于 11-23 11:24 0次下载
    基于Spark的BIRCH<b class='flag-5'>算法</b><b class='flag-5'>并行</b><b class='flag-5'>化</b>的设计与实现

    基于GPU的数字图像并行处理研究

    )的并行处理特性,而且提供了完全支持向量操作指令和符合IEEE32位浮点格式的顶点处理能力和像素处理能力,已经成为了一个强大的并行计算单元。研究人员将其应用于加速科学计算和可视应用程
    发表于 12-01 12:23 674次阅读
     基于<b class='flag-5'>GPU</b>的数字图像<b class='flag-5'>并行</b>处理<b class='flag-5'>研究</b>

    基于Hadoop平台的LDA算法并行实现

    基于MapReduce计算框架,采用Gibbs抽样方法的并行LDA主题模型的建立方法。利用分布式计算框架MapReduce研究了LDA主题模型的并行
    发表于 12-05 13:51 0次下载
    基于Hadoop平台的LDA<b class='flag-5'>算法</b>的<b class='flag-5'>并行</b><b class='flag-5'>化</b>实现

    基于自适应线程束的GPU并行PSO算法

    基于统一计算设备架构( CUDA)对图形处理器(GPU)下的并行粒子群优化(PSO)算法作改进研究。根据CUDA的硬件体系结构特点,可知Block是串行执行的,线程束(Warp)才是流
    发表于 12-08 11:32 0次下载
    基于自适应线程束的<b class='flag-5'>GPU</b><b class='flag-5'>并行</b>PSO<b class='flag-5'>算法</b>

    基于切片原理的海量点云并行简化算法

    模型分层并按照角度排序,利用NVIDA的统一计算设备架构(CUDA)和可编程图形处理器(GPU)高度并行的性能优势,使用GPU多线程高效并行
    发表于 12-14 14:08 1次下载

    解析GPU与CPU设计目的区别以及使用GPU的两种方式

    GPU并行编程模型,和CPU的串行编程模型完全不同,导致很多CPU 上优秀的算法都无法直接映射到GPU 上,并且GPU的结构相当于共享存
    的头像 发表于 02-02 16:38 6825次阅读