0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HPC黄金三角:可靠、可用、可服务

新思科技 来源:未知 2023-02-17 23:45 次阅读

98cab732-aed8-11ed-bfe3-dac502259ad0.gif

高性能计算(HPC)曾一度是大型数据中心和超级计算机的专属,但如今依赖HPC的应用不胜枚举,在与我们生活息息相关的各种应用领域都必不可少,如科学、医疗、安全、短视频…...

为实现更好的HPC芯片设计,开发者们应该了解如何提升RAS,即可靠性 (Reliability)、可用性 (Availability)和可服务性 (Serviceability)。

RAS的含义并不难懂,但涉及到HPC的SoC时,它表示什么呢?数据中心运营商长期以来一直与客户保持服务水平协议,以确保系统的正常运行时间。RAS是对此类协议的补充,现已能通过新技术获得支持,最终生成切实可行的见解。本文将进一步介绍为什么芯片生命周期管理(SLM)、嵌入式监控IP以及正确的设计和验证工具能够帮助HPC设计实现高水平的RAS。

高性能计算三大关键组成

家用安全门铃或楼宇监控系统所拍摄的视频片段、金融和商业运作建模、科学和医学研究、增强现实和虚拟现实……随着设备和系统收集的数据激增,再结合人工智能(AI)以及大量可用的计算资源,开发者们可以快速获得切实可行的见解,这使得HPC比1940年代第一台超级计算机的应用更为广泛。

如今,常规的HPC基础设施包括计算、网络和存储三大部分,且均有性能、延迟、功耗、可扩展性、效率和安全性方面的要求。下面我们分别进行说明:
  • 计算部分包括CPUGPU、加速器、片上网络(NoC)和计算服务器,用于处理高性能数据。该部分的关键在于复杂的多核甚至Multi-Die系统架构、快速访问的大内存、高带宽I/O接口电源/冷却管理和安全性。片内监控和分析可支持RAS目标。
  • 网络部分包括交换机和路由器、适配器、网桥、中继器、网络接口卡(如智能网卡)以及光电互连,可提供高性能连接,最好具有高吞吐量、低延迟、高能效、可配置性和可扩展性、实时监控和报告以及安全性。调试能力、前向纠错(FEC)和IP可以支持RAS要求。
  • 存储部分包括固态驱动器(SSD)或硬盘驱动器(HDD)、存储区域网络(SAN)和网络附接存储(NAS)。理想情况下,该部分应可提供高带宽存储,减少数据传输能耗和延迟,具有灵活性、可扩展性、可靠性和安全性。内置自测(BIST)、纠错码(ECC)和冗余等功能可以实现高水平的RAS。
HPC系统主要分为单一计算系统和混合计算系统两类。单一计算系统只有CPU,而混合计算系统同时拥有GPU和CPU,GPU运行任务,CPU监督计算。

HPC集群可包含大量的服务器,而计算集群的总物理尺寸、能耗或热量输出可能会成为一大问题。此外,集群对服务器之间的专用通信也有要求。

在集群中服务器数量相当多时,微小的设计改进也可以创造巨大的价值,因此,为HPC优化的服务器设计正在崭露头角。有时,此类设计针对搜索引公司等大型公共网络运营商,也有益于HPC集群。但它们也可以提供只适合HPC用户的功能。例如,如果系统被设计成以不同的方式提供集群互连,有望大幅减少布线。

通过片内监控和分析

提供可行见解

HPC能够处理PB级甚至ZB级的数据,并且能够实时(或接近实时)运行复杂的模型。而如果HPC系统出现故障,必然会导致资金损失和业务中断。对于关键任务应用来说,后果会更加严重。在先进工艺节点上,有大型单片晶粒或Multi-die等复杂架构,满足RAS的要求则更具有挑战性。

根据当前应用的重要性,系统可以建立备份,在发生故障时提供冗余备份。此外,还可以在系统和芯片层面以其它方式实现RAS目标。SLM也发挥着巨大的作用,它可以提供智能、自动化片内监控IP和方法,在系统生命周期的每个阶段生成可行见解。

将监视器和传感器嵌入到芯片中是开发者们几十年来一直在做的事。然而,该技术已经可以提供准确度更高、颗粒度更细的数据。这提高了设备的实时环境、结构和功能状况的可见性,可以实现监控温度热点、工艺变化和电源电压,准确测量时序裕量等功能。

得益于嵌入式、基于云的分析以及统一的SLM解决方案,设计团队能够在设计、研发和生产阶段甚至现场操作时持续、实时掌握其设备的芯片健康状况,从而更好地了解根本原因,并立即进行调试和维修,降低成本和潜在的危害。SLM可以解决晶体管老化、延迟故障等问题,能够带来诸多益处。

举例而言,如果卫星出现故障,常见的办法是在实验室维修电路板,再将其安装在卫星上,这会花费数周时间,其间卫星需要停用,以进行故障诊断和维修。借助SLM技术在现场进行故障检修和修复,团队可以在更少的中断次数和更短的中断时间内,保持系统的正常运行。

数据中心也可以体现SLM是如何加快实现RAS要求的。

  • 在芯片层面,在现场进行远程调试的能力是团队成功打造超大规模数据中心的关键,SLM提供的远程遥测和监控功能使之成为可能。

  • 在系统层面,SLM精确的时钟降频对最大化数据吞吐量和CPU、GPU和AI引擎的利用率至关重要。

  • 在数据中心层面,SLM工具可以有效监控服务器性能、网络拥塞和磁盘利用率,从而检测和预测数据中断,增加正常运行时间。

  • 在超大规模层面,团队可以利用SLM最大限度地减少片上热量和供电压力,以延长可靠性。

  • 对于Die-to-Die高速接口,SLM可监控信号完整性,结合接口完整性的冗余,有助于确保小芯片设计的稳健性。

总结

端到端的解决方案并非是各自独立的点工具的集合,而能够提供设计校准分析、片内监控、系统性能优化等多项功能,无缝实现RAS目标。新思科技可提供出色的端到端流程,我们的芯片生命周期管理系列还配有广泛的低延迟、经验证的IP组合以及面向HPC应用的设计和验证技术。

该解决方案配备物理感知芯片监控器、云分析以及嵌入式分析和优化技术,还包括SoC传感器IP和制程监控器,用于设计、研发、生产阶段和现场的优化。在制造阶段和现场,监控器可以收集有关芯片的实时数据,辅以全面的测试和调试解决方案,可确保高水平的RAS。

随着HPC应用日益增多,SoC开发必须确保系统的高可靠性、可用性和可服务性。实现最佳水平的RAS,支持流媒体视频、气候变化建模等多项应用,万物数智化的世界才能保持高速运行。

9c0806ca-aed8-11ed-bfe3-dac502259ad0.gif   


原文标题:HPC黄金三角:可靠、可用、可服务

文章出处:【微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 新思科技
    +关注

    关注

    5

    文章

    786

    浏览量

    50297

原文标题:HPC黄金三角:可靠、可用、可服务

文章出处:【微信号:Synopsys_CN,微信公众号:新思科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浅谈电动机三角接法是什么意思?举例分析

    在工业自动化和电力系统中,相交流电动机因其高效率和可靠性而被广泛使用。这些电动机的接线方式对其性能有着重要影响,其中三角接法(Delta Connection)是一种常见的接线方式。 1.
    的头像 发表于 10-23 09:55 283次阅读

    相电机三角形连接有哪些参数关系?

    相电机三角形连接(△连接)是一种重要的电气连接方式,在电力系统和电动机控制中广泛应用。在三角形连接中,相电源或负载的每一相的末端与后续相的始端相连,形成一个闭合的
    的头像 发表于 10-23 09:48 264次阅读

    什么是相电机三角形接法?定义是什么?

    相电机三角形接法(Delta Connection)是一种相交流电动机的接线方式。在这种接法中,电机的个绕组相互连接,形成一个闭合的三角
    的头像 发表于 10-23 09:37 382次阅读

    TI Arm内核三角函数的优化

    电子发烧友网站提供《TI Arm内核三角函数的优化.pdf》资料免费下载
    发表于 09-11 09:19 0次下载
    TI Arm内核<b class='flag-5'>三角</b>函数的优化

    三角波发生器的组成和应用

    三角波发生器是一种能够产生连续三角形波形信号的电子设备或电路。其输出信号具有特定的频率和波形特征,广泛应用于电子、通信、音频、测试测量以及控制系统等多个领域。以下是对三角波发生器的详细阐述,包括其工作原理、组成结构、应用领域、参
    的头像 发表于 08-08 14:36 795次阅读

    三角形连接和星形连接的基本概念和特点

    一、引言 在电力系统中,电机的连接方式对系统的运行性能和效率有着重要的影响。目前,常用的电机连接方式有三角形连接和星形连接。三角形连接和星形连接各有优缺点,适用于不同的应用场景。 二、三角形连接
    的头像 发表于 07-17 10:35 1796次阅读

    相负载与三角联结的关系

    相负载与三角联结的关系是一个电气工程领域的重要课题。在这篇文章中,我们将探讨相负载的概念、三角联结的原理以及它们之间的关系。 相负载的
    的头像 发表于 07-17 10:25 1013次阅读

    三角形和星形电机参数怎么确定?

    请教一下 三角形和星形电机怎么确定,通过测量 ------- 线电阻=2*相电阻 星形 线电阻=2/3*相电阻 三角形 这个说法对吗
    发表于 03-07 06:57

    变压器“三角形接线”和“星形接线”接法详解

    变压器“三角形接线”和“星形接线”接法详解  变压器的三角形接线和星形接线是常见的两种接法,它们在不同的应用场景中具有不同的优势和特点。 一、三角形接线 三角形接线也被称为Delta接
    的头像 发表于 02-18 18:17 1.3w次阅读

    方波 正弦波 三角波信号是如何产生的?

    方波、正弦波和三角波信号的产生方式各有不同,下面分别进行详细阐述
    的头像 发表于 01-29 17:27 6105次阅读

    阐述基于激光三角测距法的激光雷达原理

    激光三角测距法作为低成本的激光雷达设计方案,可获得高精度、高性价比的应用效果,并成为室内服务机器人导航的首选方案,本文将对激光雷达核心组件进行介绍并重点阐述基于激光三角测距法的激光雷达原理。
    的头像 发表于 12-27 18:20 1389次阅读
    阐述基于激光<b class='flag-5'>三角</b>测距法的激光雷达原理

    基于激光三角测距法的激光雷达原理

    目前激光雷达的测量原理主要有脉冲法、相干法和三角法3种,脉冲法和相干光法对激光雷达的硬件要求高,但测量精度比激光三角法要高得多,故多用于军事领域。而激光三角测距法因其成本低,精度满足大部分商用及民用要求,故得到了广泛关注。
    发表于 12-25 10:04 809次阅读
    基于激光<b class='flag-5'>三角</b>测距法的激光雷达原理

    交流电三角形接法电流关系

    交流电三角形接法是一种常见的电机接线方式,广泛应用于电动机、发电机等设备中。在这种接线方式下,相交流电通过个相互连接的线圈形成三角形,从而产生旋转磁场。本文将详细探讨交流电
    的头像 发表于 12-13 17:44 4016次阅读

    RX系列三角函数单元(TFU)的使用介绍

    硬件加速器三角函数单元(Trigonometric Function Unit)能够高速处理三角函数sin、cos、arctan和sqrt(x2+y2)函数的运算,显著减少CPU负荷,在电机的矢量控制运算中非常有用。
    的头像 发表于 12-04 12:25 2017次阅读
    RX系列<b class='flag-5'>三角</b>函数单元(TFU)的使用介绍

    三角形绕组的两种连线方式介绍

    三角形绕组中,有两种常见的连线方式,分别是星型连接和三角形连接。
    的头像 发表于 11-21 16:59 1731次阅读
    <b class='flag-5'>三角</b>形绕组的两种连线方式介绍