HPC硬件的设计面临哪些挑战-电子发烧友网

电子发烧友网报道（文/周凯扬）晶体管的复杂程度持续走高，加上晶圆厂不断增加的设计规则，不少IC设计公司都发现自己陷入了一个你追我赶的境地。半导体设计如今需要额外的高性能计算资源才能保证开发的速度和质量，一旦这些资源没到位，工程师就都会受到限制，他们自己开发的硬件在追逐性能目标的同时，手头的设计工具也提出了一个不低的性能指标。

行业面临的设计挑战

如今芯片设计面临着诸多挑战，成本与良率、晶体管效率、裸片尺寸限制以及功耗与性能的取舍等等。这些挑战对任何公司来说都是需要攻克的难关，就拿AMD来说，在他们的芯片设计中，预计2023年的逻辑门数将是2013年的225倍，要完成这样的设计工作，所以无论是EDA还是FPGA都得加入这轮军备竞赛，而且产品发布周期和质量目标使得AMD必须保持这个节奏。

晶体管数量对EDA提出了更高的要求，比如AMD的Versal Premium ACAP拥有920亿晶体管，未来将发布的Instinct MI300拥有1460亿晶体管，而这种晶体管密度下的设计并不是单靠制造工艺的演进就能解决的。以晶圆厂和EDA厂商不断强调的DTCO（设计与工艺协同优化）为例，在台积电给出的数据中，5nm到16nm这个范围内，面积上的改进基本都是靠制造工艺的提升，而到了3nm这个节点，DTCO所占功劳已经近乎一半。

可如果不通过高性能计算硬件的辅助，是难以实现这等量级的设计自动化的。尤其是在先进工艺的后端设计上，需要更多的多线程运算、更长的运行时间，也面临着更大的内存和数据压力。

HPC硬件带来的改变无论是高性能多核CPU，还是最新的GPU或ASIC加速器，都为EDA带来了性能上的飞跃。比如利用Ansys的EDA工具在应用AMD的Instinct GPU后，其求解器速度提高了三到六倍，而Epyc 7003处理器的超大三级缓存，也让其在仿真工具负载上有了1.48倍的性能提升。

另一个显而易见的趋势，就是HPC与AI的交集。过去的HPC节点中，x86处理器才是负责各种工作负载的主体。尽管如今这一点并没有改变，但我们可以看到AI已经成了HPC上不可或缺性能指标，所以无论是特定域加速的AI加速器还是GPU，也都在HPC机器上普及，EDA也同样因此受益。

比如通过AI将验证和测试线性化，从而直接预估综合的结果质量，减少对仿真的需求，又或是利用生成式AI来扩展设计空间和完成自动优化，以及通过AI来完成掩模优化，进一步提高良率等等，而这些都需要HPC硬件拥有一定的AI计算能力，才能满足EDA愈发算法化的自动化工作。

更何况就连GPU本身的设计也开始用上AI，以英伟达的Hopper H100 GPU为例。英伟达在设计H100的算数电路时用到了深度强化学习模型PrefixRL，在整个H100的架构中，就有近13000个实例是完全由AI来设计的。

可打造这样一个模型需要的硬件资源也不可小觑，比如每个GPU的物理仿真需要用到256个CPU，训练一个64位加法器电路就需要32000个GPU工时。但结果是喜人的，PrefixRL AI设计出来的加法器电路与最先进的EDA工具设计的电路性能和功能相当，但面积却小上25%。可以看出在AI这块，就连EDA厂商自己也还有不少提升的空间。

云端HPC的加入可在HPC硬件如此高昂的价格下，不少IC设计公司，尤其是初创企业，都望而却步，因为他们承受不起打造这样一个基础设施的成本，比如有的EDA公司的专用硬件加速服务器就要千万元一台。哪怕自己有达标的硬件资源，也不像EDA厂商预优化的硬件平台那样高效。

所以EDA厂商纷纷与云服务厂商合作，开始打造EDA的云HPC平台，云端按需使用的付费模式和对HPC硬件资源的灵活分配，大大降低了设计成本。像亚马逊这样自己也投身半导体行业的云服务厂商，每年也会完成多次流片。为了展示HPC云实例的性能，他们拿自己来作为范例，AWS的Gravition、Inferentia等服务器芯片，从RTL到GDS2，也都是全部在AWS云上完成的。

结语HPC硬件的设计离不开先进的EDA软件工具，可越来越复杂的设计要求，也使得EDA工具开始依赖HPC硬件才能发挥全部优势，这种闭环推动了整个半导体行业延续并超越摩尔定律。而下个时代迎来了Chiplet和3D封装，也为EDA带来了布线、时序和信号完整度等方面的更大挑战，为了迎接这一挑战，也是时候加大在EDA硬件上的投入了。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉