0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当CPU算力趋近极限,GPU能否替代CPU满足数字芯片设计的算力需求?

新思科技 来源:新思科技 2024-04-10 17:19 次阅读

就数字设计实现而言,RTL-to-GDSII流程中的每一步都涉及海量计算。在SoC级别,开发者需要评估数百个分区的各种版图规划选项,从而更大限度减少互连中的延迟并提高效率。确定了版图规划后,需要在每个分区中继续执行其余步骤,直到完成整个芯片的实现与签核环节。每个步骤的算力需求本身就很高,再乘以分区的数量,不禁让人怀疑:传统上用于数字设计的CPU是否已难堪重任?GPU能否替代CPU满足这样的算力需求?

目前,GPU以其在人工智能AI)/机器学习(ML)、游戏以及高性能计算等领域处理极具挑战性的工作负载的强大能力而备受推崇。随着芯片设计趋向更大尺寸与更高复杂性,将GPU的应用范围延伸到数字芯片设计实现领域,或许正当其时。

EDA工作负载面临的CPU算力瓶颈

CPU一直被誉为计算机的“大脑”。现代CPU集成了数十亿个晶体管和多个处理内核,适合执行各种任务,并且处理速度极快。另一方面,GPU最初是为了特定用途而设计的,但随着时间推移,GPU也逐渐演变为能够广泛用于并行处理任务的通用处理器了。

传统上,电子设计自动化(EDA)的工作负载主要在基于x86架构的CPU上运行。然而,Multi-Die等复杂架构的普及,使得CPU的算力逐渐接近极限。考虑到芯片开发团队经常面临产品上市时间的压力,任何能加速芯片设计流程的工具和技术都将极具价值。在验证和分析阶段,由于GPU的卓越计算性能,新思科技的PrimeSim和VCS仿真流程已经实现了显著的速度提升。尽管GPU并不适用于数字设计流程中的所有环节,但它在某些特定任务中无疑能够提供速度上的优势。

在数据中心,每个机箱平均部署64至128个先进高性能x86 CPU内核,部分机箱甚至有多达200个内核。某些任务需求对内核数量要求更高,因此需要多个机箱协同进行分布式处理。但如果网速不匹配,这种分布式处理就会带来额外的通信成本。RTL-to-GDSII流程和优化技术中包含许多相互依赖的关系。要成功并行执行流程中的每个作业,进行分布式处理的各个CPU机箱之间必须能够非常快速地完成数据共享,不能有任何延迟。然而在实际情况中,网络延迟对处理周期时间有着显著影响,进而导致整个RTL-to-GDSII流程的分布式并行难以达到理想效果。

另一方面,GPU内核可以轻松地进行扩展。由于每个GPU内核承担的操作较少而且体积极小,一个插槽内可以集成数万个内核,这样便可在占用空间可控的情况下,提供强大的处理能力。那些能从大规模并行处理中受益的任务非常适合交由GPU处理。然而,这些任务通常需要是单向的,因为任何需要决策和迭代的任务都会减慢处理速度,“或者/并且”需要返回CPU进行复杂的“if then else”条件判断逻辑。这就意味着,在RTL-to-GDSII数字实现流程中,并非所有任务都适合用GPU来执行。

通过GPU加速来加快布局过程

在数字设计流程中,自动布局是一项已经在GPU上得到充分应用并显示出巨大潜力的任务。新思科技的Fusion Compiler采用了GPU加速布局技术,在商业环境下的原型测试中,相较于传统CPU,已经证明了其在缩短周转时间方面的显著优势:

38秒即可完成一个3nm GPU流式多处理器设计的布局,其中包含140万个可布局标准单元和20个可布局硬宏,相比之下,CPU驱动的布局需要13分钟才能完成

82秒即可完成一个12nm汽车CPU设计的布局,其中包含290万个可布局标准单元和200个可布局硬宏,相比之下,CPU驱动的布局需要19分钟才能完成

结合新思科技AI驱动的设计空间优化解决方案DSO.ai,我们预计在保持相同完成时间线的前提下,将AI驱动型搜索空间扩大15至20倍。这一进步有望帮助开发团队在功耗、性能和面积(PPA)方面实现更卓越的设计成果。

在数字设计的多个实施步骤中,版图规划和布局对最终设计的功耗、性能和面积(PPA)有着重大影响,因此这两个步骤是最需要进行广泛探索的环节。即便GPU计算资源通常与高性能CPU计算集群分离,我们也能预见,在基于GPU的布局技术支持下,开发者能够高效完成工作。然而,在RTL-to-GDSII的整个实施流程中,如果其他环节存在即时或交替的GPU加速需求,设计数据在CPU与GPU集群之间的传输所引入的延迟,会对吞吐量产生影响。

新型数据中心SoC正在设计中引入CPU与GPU资源间的统一内存,以处理TB级的工作负载。得益于这类新兴架构,利用GPU加速时不再需要移动设计数据,我们也能进一步思考GPU加速还可以应用在数字设计流程的哪些其他方面。特别是当开发者能够将GPU与AI驱动的实施工具结合使用时,那必将实现更快的探索、更广的范围以及更优的结果。此外,新思科技的AI驱动型全栈式EDA解决方案Synopsys.ai,能够助力开发者实现更佳的性能、功耗与面积(PPA)结果、更快达成目标、并显著提升开发效率、实现更高的工程生产力,我们可以预见GPU加速技术的加入将进一步革新芯片设计领域。

总结

在芯片设计流程的仿真阶段,GPU的运用已司空见惯,数字设计流程的其他部分也将逐渐展现出利用GPU加速的潜力。面对大型芯片或Multi-Die这类复杂架构,CPU在运行RTL-to-GDSII流程时的算力已接近饱和,难以满足所期望的处理速度。而GPU以其卓越的可扩展性和处理能力,有望实现更快的设计周期和更佳的芯片性能。在使用GPU加速的布局工具进行的原型设计测试中,布局速度已实现高达20倍的提升。随着AI技术逐步融入EDA流程中,GPU的加入将显著提升功耗、面积和性能(PPA)指标,同时缩短产品上市时间。

审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SoC设计
    +关注

    关注

    1

    文章

    148

    浏览量

    18774
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238209
  • RTL
    RTL
    +关注

    关注

    1

    文章

    385

    浏览量

    59759
  • 数字芯片
    +关注

    关注

    1

    文章

    110

    浏览量

    18384
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5804

原文标题:当CPU算力趋近极限,GPU能否成为数字芯片设计的救星?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    企业AI租赁是什么

    企业AI租赁是指企业通过互联网向专业的提供商租用所需的计算资源,以满足其AI应用的需求
    的头像 发表于 11-14 09:30 468次阅读

    GPU开发平台是什么

    随着AI技术的广泛应用,需求呈现出爆发式增长。AI租赁作为一种新兴的服务模式,正逐渐成为企业获取
    的头像 发表于 10-31 10:31 164次阅读

    【一文看懂】大白话解释“GPUGPU

    随着大模型的兴起,“GPU”这个词正频繁出现在人工智能、游戏、图形设计等工作场景中,什么是GPU,它与CPU的区别是什么?以及到底什么是
    的头像 发表于 10-29 08:05 553次阅读
    【一文看懂】大白话解释“<b class='flag-5'>GPU</b>与<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>”

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解芯片CPU

    。 █在芯片设计中,芯片拓扑(Topology)结构非常重要。 ●环形(Ring)拓扑方式是一种将多个处理单元连接成环形结构的片上总线技术结构中,每个处理单元都与环上的两个相邻处理
    发表于 10-20 12:03

    芯片 高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——之巅:从基准测试到CPU微架构的深度探索

    的支持。现代CPU的设计不仅注重性能的提升,还特别关注能效比和灵活性,以适应不断变化的计算需求芯片的发展史,某种程度上就是人类智慧的结
    发表于 10-19 01:21

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 编辑 感谢平台提供的书籍,厚厚的一本,很有分量,感谢作者的倾力付出成书。 本书主要讲芯片CPU
    发表于 10-15 22:08

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    的强有力竞争者;苹果、Cerebras、Ampere、特斯拉等企业的加入让这场“芯片战争”更加热闹。 CPUGPU、NPU等
    发表于 09-02 10:09

    的分类与现代生活

    的提升使得用户能够享受到更加流畅和丰富的数字体验。 个人通常指的是个人使用的计算设备,如智能手机、个人电脑、平板电脑等。这些设备通过中央处理器(
    的头像 发表于 08-26 15:05 199次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>的分类与现代生活

    大模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    服务器为什么选择GPU

    随着人工智能技术的快速普及,需求日益增长。智中心的服务器作为支撑大规模数据处理和计算的核心设备,其性能优化显得尤为关键。而GPU服务器
    的头像 发表于 07-25 08:28 607次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>服务器为什么选择<b class='flag-5'>GPU</b>

    摩尔线程张建中:以国产助力数智世界,满足大模型需求

    摩尔线程创始人兼CEO张建中在会上透露,为了满足国内对AI的迫切需求,他们正在积极寻求与国内顶尖科研机构的深度合作,共同推动更大规模的AI智
    的头像 发表于 05-10 16:36 949次阅读

    Sora需求引发业界对集结国内AI企业的探讨

    据周鸿祎观察,Sora视频分析所需恐远超千亿规模模型。因而,考虑到如今国内芯片供应受限,问题至关重要。事实上,Meta已有约50万台
    的头像 发表于 02-25 10:03 580次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    深入了解浮点运算—CPUGPU是如何计算的?

    随着国家大力发展数字经济,的提升和普惠变得越来越重要。在数字化时代,已成为推动科技发展和
    的头像 发表于 01-18 18:20 4083次阅读
    深入了解浮点运算—<b class='flag-5'>CPU</b>和<b class='flag-5'>GPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>是如何计算的?

    GPU是显卡吗 cpugpu哪个

    很大的区别,因此它们的计算能力也不同。 首先,我们来看一下CPU(中央处理器)的CPU是一种通用处理器,它被设计用于处理各种不同类型的任务,包括数据处理、指令执行、逻辑控制等。
    的头像 发表于 01-10 15:45 5253次阅读