0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

当CPU算力趋近极限,GPU能否替代CPU满足数字芯片设计的算力需求?

新思科技 来源:新思科技 2024-04-10 17:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

就数字设计实现而言,RTL-to-GDSII流程中的每一步都涉及海量计算。在SoC级别,开发者需要评估数百个分区的各种版图规划选项,从而更大限度减少互连中的延迟并提高效率。确定了版图规划后,需要在每个分区中继续执行其余步骤,直到完成整个芯片的实现与签核环节。每个步骤的算力需求本身就很高,再乘以分区的数量,不禁让人怀疑:传统上用于数字设计的CPU是否已难堪重任?GPU能否替代CPU满足这样的算力需求?

目前,GPU以其在人工智能AI)/机器学习(ML)、游戏以及高性能计算等领域处理极具挑战性的工作负载的强大能力而备受推崇。随着芯片设计趋向更大尺寸与更高复杂性,将GPU的应用范围延伸到数字芯片设计实现领域,或许正当其时。

EDA工作负载面临的CPU算力瓶颈

CPU一直被誉为计算机的“大脑”。现代CPU集成了数十亿个晶体管和多个处理内核,适合执行各种任务,并且处理速度极快。另一方面,GPU最初是为了特定用途而设计的,但随着时间推移,GPU也逐渐演变为能够广泛用于并行处理任务的通用处理器了。

传统上,电子设计自动化(EDA)的工作负载主要在基于x86架构的CPU上运行。然而,Multi-Die等复杂架构的普及,使得CPU的算力逐渐接近极限。考虑到芯片开发团队经常面临产品上市时间的压力,任何能加速芯片设计流程的工具和技术都将极具价值。在验证和分析阶段,由于GPU的卓越计算性能,新思科技的PrimeSim和VCS仿真流程已经实现了显著的速度提升。尽管GPU并不适用于数字设计流程中的所有环节,但它在某些特定任务中无疑能够提供速度上的优势。

在数据中心,每个机箱平均部署64至128个先进高性能x86 CPU内核,部分机箱甚至有多达200个内核。某些任务需求对内核数量要求更高,因此需要多个机箱协同进行分布式处理。但如果网速不匹配,这种分布式处理就会带来额外的通信成本。RTL-to-GDSII流程和优化技术中包含许多相互依赖的关系。要成功并行执行流程中的每个作业,进行分布式处理的各个CPU机箱之间必须能够非常快速地完成数据共享,不能有任何延迟。然而在实际情况中,网络延迟对处理周期时间有着显著影响,进而导致整个RTL-to-GDSII流程的分布式并行难以达到理想效果。

另一方面,GPU内核可以轻松地进行扩展。由于每个GPU内核承担的操作较少而且体积极小,一个插槽内可以集成数万个内核,这样便可在占用空间可控的情况下,提供强大的处理能力。那些能从大规模并行处理中受益的任务非常适合交由GPU处理。然而,这些任务通常需要是单向的,因为任何需要决策和迭代的任务都会减慢处理速度,“或者/并且”需要返回CPU进行复杂的“if then else”条件判断逻辑。这就意味着,在RTL-to-GDSII数字实现流程中,并非所有任务都适合用GPU来执行。

通过GPU加速来加快布局过程

在数字设计流程中,自动布局是一项已经在GPU上得到充分应用并显示出巨大潜力的任务。新思科技的Fusion Compiler采用了GPU加速布局技术,在商业环境下的原型测试中,相较于传统CPU,已经证明了其在缩短周转时间方面的显著优势:

38秒即可完成一个3nm GPU流式多处理器设计的布局,其中包含140万个可布局标准单元和20个可布局硬宏,相比之下,CPU驱动的布局需要13分钟才能完成

82秒即可完成一个12nm汽车CPU设计的布局,其中包含290万个可布局标准单元和200个可布局硬宏,相比之下,CPU驱动的布局需要19分钟才能完成

结合新思科技AI驱动的设计空间优化解决方案DSO.ai,我们预计在保持相同完成时间线的前提下,将AI驱动型搜索空间扩大15至20倍。这一进步有望帮助开发团队在功耗、性能和面积(PPA)方面实现更卓越的设计成果。

在数字设计的多个实施步骤中,版图规划和布局对最终设计的功耗、性能和面积(PPA)有着重大影响,因此这两个步骤是最需要进行广泛探索的环节。即便GPU计算资源通常与高性能CPU计算集群分离,我们也能预见,在基于GPU的布局技术支持下,开发者能够高效完成工作。然而,在RTL-to-GDSII的整个实施流程中,如果其他环节存在即时或交替的GPU加速需求,设计数据在CPU与GPU集群之间的传输所引入的延迟,会对吞吐量产生影响。

新型数据中心SoC正在设计中引入CPU与GPU资源间的统一内存,以处理TB级的工作负载。得益于这类新兴架构,利用GPU加速时不再需要移动设计数据,我们也能进一步思考GPU加速还可以应用在数字设计流程的哪些其他方面。特别是当开发者能够将GPU与AI驱动的实施工具结合使用时,那必将实现更快的探索、更广的范围以及更优的结果。此外,新思科技的AI驱动型全栈式EDA解决方案Synopsys.ai,能够助力开发者实现更佳的性能、功耗与面积(PPA)结果、更快达成目标、并显著提升开发效率、实现更高的工程生产力,我们可以预见GPU加速技术的加入将进一步革新芯片设计领域。

总结

在芯片设计流程的仿真阶段,GPU的运用已司空见惯,数字设计流程的其他部分也将逐渐展现出利用GPU加速的潜力。面对大型芯片或Multi-Die这类复杂架构,CPU在运行RTL-to-GDSII流程时的算力已接近饱和,难以满足所期望的处理速度。而GPU以其卓越的可扩展性和处理能力,有望实现更快的设计周期和更佳的芯片性能。在使用GPU加速的布局工具进行的原型设计测试中,布局速度已实现高达20倍的提升。随着AI技术逐步融入EDA流程中,GPU的加入将显著提升功耗、面积和性能(PPA)指标,同时缩短产品上市时间。

审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SoC设计
    +关注

    关注

    1

    文章

    151

    浏览量

    19598
  • 人工智能
    +关注

    关注

    1819

    文章

    50290

    浏览量

    266834
  • RTL
    RTL
    +关注

    关注

    1

    文章

    395

    浏览量

    62862
  • 数字芯片
    +关注

    关注

    1

    文章

    120

    浏览量

    19102
  • GPU芯片
    +关注

    关注

    1

    文章

    307

    浏览量

    6553

原文标题:当CPU算力趋近极限,GPU能否成为数字芯片设计的救星?

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于openEuler平台的CPUGPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样
    的头像 发表于 04-08 11:02 550次阅读
    基于openEuler平台的<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>与FPGA异构加速实战

    国产出海元年开启

      国产开启“大航海”时代。 黄仁勋前段时间访华时曾表示:“华为AI芯片取代英伟达只是时间问题。”彼时,这话多被解读为对老对手的客套。但在刚刚结束的2025世界人工智能大会上,华为昇腾384超
    的头像 发表于 03-24 15:15 479次阅读
    国产<b class='flag-5'>算</b><b class='flag-5'>力</b>出海元年开启

    中国芯片的拐点时刻

    作者|Taylor出品|芯片技术与工艺OpenAI的GPT-5在得克萨斯州的机房中昼夜轰鸣,Nvdia的H200芯片被炒至数十万美元仍一卡难求,中国的
    的头像 发表于 01-31 07:00 1969次阅读
    中国<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>的拐点时刻

    进迭时空发布新一代RISC-V AI CPU芯片满足端侧大模型需求

    FP8数据精度原生AI推理,还是首颗完整支持芯片级虚拟化的RISC-V产品。   硬件配置上,K3配备8颗高性能X100大核,主频2.4GHz,单核性能与ARM A76相,60TOPS的AI
    的头像 发表于 01-30 14:06 9451次阅读

    GPU 利用率<30%?这款开源智云平台让不浪费 1%

    作为 AI 开发者,你是否早已受够这些困境:花数百万采购的 GPU 集群,利用率常年低于 30%,闲置如同烧钱;跨 CPU/GPU/NP
    的头像 发表于 01-26 14:20 273次阅读

    将AI送上太空,是终极方案还是疯狂幻想?评论区说出你的阵营!

    AI
    江苏易安联
    发布于 :2026年01月06日 09:43:34

    赋能电源芯片国产替代,智芯谷助力AI稳定前行

    需求激增与技术迭代的双重压力下,电源管理芯片也正面临设计复杂度提升、供应链波动加剧、国产替代进程加速等多重挑战。一、增长背后的“供电危机
    的头像 发表于 12-30 12:02 768次阅读
    赋能电源<b class='flag-5'>芯片</b>国产<b class='flag-5'>替代</b>,智芯谷助力AI<b class='flag-5'>算</b><b class='flag-5'>力</b>稳定前行

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    CPUGPU到NPU,美格智能持续优化异构计算效能

    前言AI已成为数字经济时代的核心生产,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业
    的头像 发表于 11-21 16:05 1290次阅读
    从<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>到NPU,美格智能持续优化异构<b class='flag-5'>算</b><b class='flag-5'>力</b>计算效能

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下
    发表于 10-27 13:12

    与电力的终极博弈,填上了AIDC的“电力黑洞”

    ),专注于提供人工智能训练与推理所需的服务、数据服务和算法服务。AIDC采用异构计算架构,结合GPU、FPGA、ASIC等多种AI加速芯片,形成高并发分布式系统,以
    的头像 发表于 09-22 02:43 8964次阅读

    板卡:驱动智能时代的核心引擎

    、科学计算等领域的核心硬件,支撑着现代数字化社会的运转。 板卡的核心作用   板卡是一种专为高性能计算设计的硬件模块,通常以加速卡的
    的头像 发表于 08-01 10:25 1691次阅读

    热插拔集群

    能力‌ 服务器节点热插拔‌:集群服务器支持在线更换计算节点(如2U服务器容纳12个热插拔AI节点,单节点集成5个卡)。 GPU/卡扩
    的头像 发表于 06-26 09:20 1223次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前
    发表于 06-18 19:31

    搭建中心,从了解的GPU 特性开始

    ABSTRACT摘要本文介绍如何搭建,并介绍A100、H100、H200和B200这些GPU的特性。JAEALOT2025年4月23日随着人工智能、大数据和高性能计算(HPC)的快速发展,市场上
    的头像 发表于 04-24 11:08 3689次阅读
    搭建<b class='flag-5'>算</b><b class='flag-5'>力</b>中心,从了解的<b class='flag-5'>GPU</b> 特性开始