HPC黄金三角：可靠、可用、可服务-电子发烧友网

高性能计算（HPC）曾一度是大型数据中心和超级计算机的专属，但如今依赖HPC的应用不胜枚举，在与我们生活息息相关的各种应用领域都必不可少，如科学、医疗、安全、短视频…...

为实现更好的HPC芯片设计，开发者们应该了解如何提升RAS，即可靠性 (Reliability)、可用性 (Availability)和可服务性 (Serviceability)。

RAS的含义并不难懂，但涉及到HPC的SoC时，它表示什么呢？数据中心运营商长期以来一直与客户保持服务水平协议，以确保系统的正常运行时间。RAS是对此类协议的补充，现已能通过新技术获得支持，最终生成切实可行的见解。本文将进一步介绍为什么芯片生命周期管理（SLM）、嵌入式监控IP以及正确的设计和验证工具能够帮助HPC设计实现高水平的RAS。

高性能计算三大关键组成

家用安全门铃或楼宇监控系统所拍摄的视频片段、金融和商业运作建模、科学和医学研究、增强现实和虚拟现实……随着设备和系统收集的数据激增，再结合人工智能（AI）以及大量可用的计算资源，开发者们可以快速获得切实可行的见解，这使得HPC比1940年代第一台超级计算机的应用更为广泛。

如今，常规的HPC基础设施包括计算、网络和存储三大部分，且均有性能、延迟、功耗、可扩展性、效率和安全性方面的要求。下面我们分别进行说明：

计算部分包括CPU和GPU、加速器、片上网络（NoC）和计算服务器，用于处理高性能数据。该部分的关键在于复杂的多核甚至Multi-Die系统架构、快速访问的大内存、高带宽I/O接口、电源/冷却管理和安全性。片内监控和分析可支持RAS目标。
网络部分包括交换机和路由器、适配器、网桥、中继器、网络接口卡（如智能网卡）以及光电互连，可提供高性能连接，最好具有高吞吐量、低延迟、高能效、可配置性和可扩展性、实时监控和报告以及安全性。调试能力、前向纠错（FEC）和IP可以支持RAS要求。
存储部分包括固态驱动器（SSD）或硬盘驱动器（HDD）、存储区域网络（SAN）和网络附接存储（NAS）。理想情况下，该部分应可提供高带宽存储，减少数据传输能耗和延迟，具有灵活性、可扩展性、可靠性和安全性。内置自测（BIST）、纠错码（ECC）和冗余等功能可以实现高水平的RAS。

HPC系统主要分为单一计算系统和混合计算系统两类。单一计算系统只有CPU，而混合计算系统同时拥有GPU和CPU，GPU运行任务，CPU监督计算。

HPC集群可包含大量的服务器，而计算集群的总物理尺寸、能耗或热量输出可能会成为一大问题。此外，集群对服务器之间的专用通信也有要求。

在集群中服务器数量相当多时，微小的设计改进也可以创造巨大的价值，因此，为HPC优化的服务器设计正在崭露头角。有时，此类设计针对搜索引擎公司等大型公共网络运营商，也有益于HPC集群。但它们也可以提供只适合HPC用户的功能。例如，如果系统被设计成以不同的方式提供集群互连，有望大幅减少布线。

通过片内监控和分析

提供可行见解

HPC能够处理PB级甚至ZB级的数据，并且能够实时（或接近实时）运行复杂的模型。而如果HPC系统出现故障，必然会导致资金损失和业务中断。对于关键任务应用来说，后果会更加严重。在先进工艺节点上，有大型单片晶粒或Multi-die等复杂架构，满足RAS的要求则更具有挑战性。

根据当前应用的重要性，系统可以建立备份，在发生故障时提供冗余备份。此外，还可以在系统和芯片层面以其它方式实现RAS目标。SLM也发挥着巨大的作用，它可以提供智能、自动化片内监控IP和方法，在系统生命周期的每个阶段生成可行见解。

将监视器和传感器嵌入到芯片中是开发者们几十年来一直在做的事。然而，该技术已经可以提供准确度更高、颗粒度更细的数据。这提高了设备的实时环境、结构和功能状况的可见性，可以实现监控温度热点、工艺变化和电源电压，准确测量时序裕量等功能。

得益于嵌入式、基于云的分析以及统一的SLM解决方案，设计团队能够在设计、研发和生产阶段甚至现场操作时持续、实时掌握其设备的芯片健康状况，从而更好地了解根本原因，并立即进行调试和维修，降低成本和潜在的危害。SLM可以解决晶体管老化、延迟故障等问题，能够带来诸多益处。

举例而言，如果卫星出现故障，常见的办法是在实验室维修电路板，再将其安装在卫星上，这会花费数周时间，其间卫星需要停用，以进行故障诊断和维修。借助SLM技术在现场进行故障检修和修复，团队可以在更少的中断次数和更短的中断时间内，保持系统的正常运行。

数据中心也可以体现SLM是如何加快实现RAS要求的。

在芯片层面，在现场进行远程调试的能力是团队成功打造超大规模数据中心的关键，SLM提供的远程遥测和监控功能使之成为可能。
在系统层面，SLM精确的时钟降频对最大化数据吞吐量和CPU、GPU和AI引擎的利用率至关重要。
在数据中心层面，SLM工具可以有效监控服务器性能、网络拥塞和磁盘利用率，从而检测和预测数据中断，增加正常运行时间。
在超大规模层面，团队可以利用SLM最大限度地减少片上热量和供电压力，以延长可靠性。
对于Die-to-Die高速接口，SLM可监控信号完整性，结合接口完整性的冗余，有助于确保小芯片设计的稳健性。

总结

端到端的解决方案并非是各自独立的点工具的集合，而能够提供设计校准分析、片内监控、系统性能优化等多项功能，无缝实现RAS目标。新思科技可提供出色的端到端流程，我们的芯片生命周期管理系列还配有广泛的低延迟、经验证的IP组合以及面向HPC应用的设计和验证技术。

该解决方案配备物理感知芯片监控器、云分析以及嵌入式分析和优化技术，还包括SoC传感器IP和制程监控器，用于设计、研发、生产阶段和现场的优化。在制造阶段和现场，监控器可以收集有关芯片的实时数据，辅以全面的测试和调试解决方案，可确保高水平的RAS。

随着HPC应用日益增多，SoC开发必须确保系统的高可靠性、可用性和可服务性。实现最佳水平的RAS，支持流媒体视频、气候变化建模等多项应用，万物数智化的世界才能保持高速运行。

原文标题：HPC黄金三角：可靠、可用、可服务

文章出处：【微信公众号：新思科技】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

新思科技

新思科技

+关注

关注
5

文章
798

浏览量
50349

原文标题：HPC黄金三角：可靠、可用、可服务

文章出处：【微信号：Synopsys_CN，微信公众号：新思科技】欢迎添加关注！文章转载请注明出处。

长三角，如何把数据要素变成新长江？

长三角数据一体化，为“数据要素x”做出示范

发表于 12-24 14:07 •142次阅读

浅谈电动机三角接法是什么意思？举例分析

在工业自动化和电力系统中，三相交流电动机因其高效率和可靠性而被广泛使用。这些电动机的接线方式对其性能有着重要影响，其中三角接法（Delta Connection）是一种常见的接线方式。 1.

发表于 10-23 09:55 •1043次阅读

三相电机三角形连接有哪些参数关系？

三相电机三角形连接（△连接）是一种重要的电气连接方式，在电力系统和电动机控制中广泛应用。在三角形连接中，三相电源或负载的每一相的末端与后续相的始端相连，形成一个闭合的

发表于 10-23 09:48 •810次阅读

什么是三相电机三角形接法？定义是什么？

三相电机三角形接法（Delta Connection）是一种三相交流电动机的接线方式。在这种接法中，电机的三个绕组相互连接，形成一个闭合的三角

发表于 10-23 09:37 •871次阅读

TI Arm内核三角函数的优化

电子发烧友网站提供《TI Arm内核三角函数的优化.pdf》资料免费下载

发表于 09-11 09:19 •0次下载

这个电路怎么得不到三角波呢？

先上图请问高手，这个电路怎么得不到三角波呢？谢谢

发表于 09-05 13:55

请问三角波产生电路怎么消除偏置？

三角波产生电路怎么消除偏置？

发表于 09-03 07:25

三角波发生器的组成和应用

三角波发生器是一种能够产生连续三角形波形信号的电子设备或电路。其输出信号具有特定的频率和波形特征，广泛应用于电子、通信、音频、测试测量以及控制系统等多个领域。以下是对三角波发生器的详细阐述，包括其工作原理、组成结构、应用领域、参

发表于 08-08 14:36 •1638次阅读

三角形连接和星形连接的基本概念和特点

一、引言在电力系统中，电机的连接方式对系统的运行性能和效率有着重要的影响。目前，常用的电机连接方式有三角形连接和星形连接。三角形连接和星形连接各有优缺点，适用于不同的应用场景。二、三角形连接

发表于 07-17 10:35 •2751次阅读

三相负载与三角联结的关系

三相负载与三角联结的关系是一个电气工程领域的重要课题。在这篇文章中，我们将探讨三相负载的概念、三角联结的原理以及它们之间的关系。三相负载的

发表于 07-17 10:25 •1303次阅读

三角形连接线电流和相电流的关系

在电力系统中，三角形连接（Delta Connection）和星形连接（Star Connection）是两种常见的三相电机或变压器的连接方式。三角形连接线电流和相电流之间的关系对于理解三

发表于 07-17 09:59 •9088次阅读

激光焊接机在不锈钢三角阀制造中的应用与发展

不锈钢三角阀激光焊接机是一种专门用于焊接不锈钢三角阀的高效、精准设备。这种设备在不锈钢三角阀的制造过程中起到了至关重要的作用，其应用主要体现在以下几个方面：一、激光焊接机在不锈钢三角

发表于 03-25 20:28 •407次阅读

三角形和星形电机参数怎么确定？

请教一下三角形和星形电机怎么确定，通过测量 ------- 线电阻=2*相电阻星形线电阻=2/3*相电阻三角形这个说法对吗

发表于 03-07 06:57

变压器“三角形接线”和“星形接线”接法详解

变压器“三角形接线”和“星形接线”接法详解变压器的三角形接线和星形接线是常见的两种接法，它们在不同的应用场景中具有不同的优势和特点。一、三角形接线三角形接线也被称为Delta接

发表于 02-18 18:17 •1.4w次阅读

方波正弦波三角波信号是如何产生的？

方波、正弦波和三角波信号的产生方式各有不同，下面分别进行详细阐述

发表于 01-29 17:27 •7198次阅读

搜索历史

HPC黄金三角：可靠、可用、可服务

高性能计算三大关键组成

总结

评论

长三角，如何把数据要素变成新长江？

浅谈电动机三角接法是什么意思？举例分析

三相电机三角形连接有哪些参数关系？

什么是三相电机三角形接法？定义是什么？

TI Arm内核三角函数的优化

这个电路怎么得不到三角波呢？

请问三角波产生电路怎么消除偏置？

三角波发生器的组成和应用

三角形连接和星形连接的基本概念和特点

三相负载与三角联结的关系

三角形连接线电流和相电流的关系

激光焊接机在不锈钢三角阀制造中的应用与发展

三角形和星形电机参数怎么确定？

变压器“三角形接线”和“星形接线”接法详解

方波正弦波三角波信号是如何产生的？