ic设计现面临算力需求不均匀的行业特点,以一个为期18月的芯片设计为例,涉及前端,验证,后端三个周期: 前4个周,只涉及到前端布局以及架构,对算力需求不高,因此月度需求较少; 从5月开始,前端,验证,后端均开始工作,算力开始逐步提升,第11个月达算力小高峰,在第16个月达算力最高峰,月度调月度调度峰值达到百万级核时以上; 算力波峰和波谷的核数差距在20倍以上; 算力在第16个月达到最高峰后,迅速下降。
北鲲云提供混合云部署、云上一体化部署等多种部署模式 ,北鲲云用多种方式助力企业大大提高工作效率。
多地域资源调度防止Job Pending:对SLURM开源集群调度系统进行二次开发:一个SLURM集群可同时使用华为云多个地域的资源, 按照设定的优先级进行资源调度, 防止由于单地域资源不足导致的Job Pending
指定周期锁定资源(Pre-alloc)防止Job Pending:用户也可以使用SLURM命令提前锁定资源,在资源锁定成功后,再运行任务,如salloc –N 100 –p c-32-2 –t 1-00:00:00 锁定100台32核64G资源,锁定期为1天
队列集(partition-set)支持大规模资源使用:在大规模资源调度的场景如千台规模时,单个实例类型(队列)容易缺货导致调度失败,北鲲云对SLURM进行二次开发,实现队列集功能,可在一个Job中指定多个队列按优先级调度资源
资源弹性溢出与调度:在绝大部分场景下,用户无需关注资源本身,只需要提交作业,平台会自动根据作业申请的资源数量,自动弹性申请云上资源,并在作业结束后5分钟自动释放资源
以国内某芯片设计企业为例子,本地集群无法在业务高峰期(年底、年中)满足仿真计算需求,作业排队情况严重; 原有云上解决方案严重改变了芯片设计工程师线下操作方式,降低了工作效率; 云上资源调度策略不灵活,导致Job pending,影响仿真工作稳定性; 原有云上资源价格偏贵,成本控制不灵活;
使用专业解决方案,深度整合无感化上云。本地建立专门的上云节点,用于仿真数据自动同步; 将云上资源与virtuoso软件ade_L、ade_XL、maestro等提交作业方式深度整合,芯片设计工程师仅需切换环境变量即可无感化上云; LSF-Slurm Wrapper让工程师按原有命令习惯提交作业,不改变操作习惯,降低使用成本; 多地域资源调度已经华为云云上资源的丰富,保证了业务高峰能够预留、随需调度充足的计算资源。
审核编辑 黄昊宇
-
IC设计
+关注
关注
38文章
1296浏览量
103947 -
芯片设计
+关注
关注
15文章
1019浏览量
54895
发布评论请先 登录
相关推荐
评论