如何提高HPC SoC的可靠性、可用性和可维护性级别-电子发烧友网

通过芯片生命周期管理可以确保数据中心系统正常运行时间。

在大型数据中心和超级计算机的领域，高性能计算 (HPC) 已经变得相当普遍，并且在某些情况下，在我们的日常生活中必不可少。正因为如此，可靠性、可用性和可维护性（reliability, availability, and serviceability，或称RAS），是更多 HPC SoC 设计人员应该熟悉的概念。

RAS 听起来像是一个不言自明的术语，但在涉及 HPC SoC 时它真正涉及什么？数据中心运营商长期与客户保持服务水平协议，以保证系统正常运行时间。RAS 补充了这些协议，现在可以得到新技术的支持，最终产生可操作的见解。在这篇最初发表于“从芯片到软件”博客上的文章中，您将了解为什么芯片生命周期管理 (SLM)、嵌入式监控 IP 以及正确的设计和验证工具可以在您的HPC 设计中实现高水平 RAS。

3个关键的高性能计算组件

家庭安全门铃或建筑物监控系统捕获的视频片段、财务和业务运营建模、科学和医学研究、增强现实和虚拟现实等应用都需要依赖 HPC。随着我们的设备和系统收集的数据激增、AI 驱动的分析、大量计算资源的可用性以及云的融合，使快速获得有用、可操作的见解成为可能，使 HPC 成为许多领域不可或缺的一部分。它与 1940 年代第一台超级计算机出现时相比，应用范围更广。

当今典型的 HPC 基础设施由三个关键要素组成：计算、网络和存储。每个都需要一定水平的性能、延迟、电源效率、可扩展性、生产力和安全性。让我们仔细看看每个元素：

计算由 CPU 和 GPU、加速器、片上网络 (NoC) 和计算服务器组成。这是进行高性能数据处理的地方。复杂的多核甚至多芯片系统架构、具有快速访问的大内存、高带宽 I/O 接口、电源/冷却管理和安全性是其关键特性。片内监控和分析还可以支持 RAS 目标。

网络由交换机和路由器、适配器、网桥、中继器、网络接口卡（如 SmartNIC）以及光学和电气互连组成。该元素提供高性能连接，理想情况下具有高吞吐量、低延迟、能源效率、可配置性和可扩展性、实时监控和报告以及安全性。调试功能、前向纠错 (FEC) 和 IP 可以支持 RAS 要求。

存储包括固态驱动器 (SSD) 或硬盘驱动器 (HDD)、存储区域网络 (SAN) 和网络附加存储 (NAS)。理想情况下，存储元件应提供高带宽存储、减少数据传输能量和延迟、灵活性、可扩展性、可靠性和安全性。内置自测试 (BIST)、纠错码 (ECC) 和冗余等功能可以促进高水平的 RAS。

有两种主要类型的 HPC 系统：同类机器和混合机器。同类机器只有 CPU。相比之下，混合动力车同时拥有 GPU 和 CPU，其中 GPU 运行任务而 CPU 监督计算。

HPC 集群可以由大量服务器组成，其中计算集群的总物理尺寸、能源使用或热输出可能成为一个严重的问题。此外，还需要在服务器之间进行专用通信，这对于集群来说有些独特。

由于微小的设计差异乘以集群中的服务器数量会带来巨大的收益，因此我们看到了针对 HPC 优化的服务器设计的出现。有时，这些是针对大型公共 Web 运营商（例如搜索引擎公司）的设计，它们在 HPC 集群中提供类似的优势。但是，它们也可以提供仅适合 HPC 用户的功能。例如，如果系统设计为以不同方式提供集群互连，则可能会显著减少布线。

通过片内监控和分析获得可操作的见解

HPC 的实用性在于它能够处理海量数据（PB 甚至 zettabytes）并实时（或接近实时）运行复杂模型。不用说，只要 HPC 系统出现故障，就会导致资金损失和业务中断。任务关键型应用程序的影响变得更加陡峭。在高级节点，使用大型单片芯片或复杂架构（如多芯片），可以满足 RAS 要求并变得更具挑战性。

根据手头应用程序的重要性，系统可以构建备份，以在发生故障时提供冗余。除了冗余之外，您还可以在系统和芯片级别做更多的事情来满足 RAS 目标。这就是 SLM 发挥重要作用的地方，它提供智能、自动化的片内监控 IP 和方法，以在系统生命周期的每个阶段生成可操作的见解。

几十年来，设计人员一直在将监视器和传感器嵌入到他们的芯片中。但是，该技术已经发展到现在可以提供更准确的数据。这样可以更好地了解设备的实时环境、结构和功能状况。示例包括工艺变化和电压供应的监控，以及时序裕度的准确测量等。

由于嵌入式和基于云的分析，以及统一 SLM 解决方案的可用性，设计团队将能够建立一个连续的、实时的设备硅健康状况图，而不仅仅是在设计期间，在生产阶段以及现场操作期间。他们可以更好地了解根本原因并立即进行调试和修复，从而降低成本和潜在危害。SLM 可以解决的问题包括晶体管老化和延迟故障。要了解这带来的好处，请考虑一颗有缺陷的卫星。通常情况下，从实验室取回修复后的电路板安装到卫星上可能需要数周的时间，将其长时间停用以进行故障排除和维修。通过SLM技术在现场进行故障检测和故障修复。

看看数据中心，我们可以看到另一个突出 SLM 如何促进满足 RAS 要求的示例。

在芯片层面，现场远程调试的能力对于超大规模数据中心的团队来说至关重要。SLM 提供远程遥测和监控使这成为可能。

在系统级别，精确的时钟节流（SLM 的另一项功能）对于最大化数据吞吐量和 CPU、GPU 和 AI 引擎利用率至关重要。

在数据中心级别，使用 SLM 工具监控服务器性能、网络拥塞和磁盘利用率是检测和预测数据中断的关键，这可以增加正常运行时间。

在超大规模级别，团队可以利用 SLM 来最大限度地减少片上热和电源压力，从而提高可靠性。

对于 die-to-die 高速接口，SLM 提供信号完整性监控，连同接口完整性冗余，有助于确保小芯片设计的稳健性。

概括

一个端到端的解决方案将设计校准分析、片内监控和系统性能优化等一切结合在一起，而不是一组互不关联的单点工具，可以使解决 RAS 目标的过程更加无缝。

鉴于现在依赖 HPC 的应用程序范围越来越广，保持这些系统的高水平可靠性、可用性和可服务性是一个全面的关键考虑因素。实现最佳 RAS 水平以支持从流媒体视频到气候变化建模的一切是保持数字化、智能化万物世界高速运行的另一个重要因素。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

soc

soc

+关注

关注
38

文章
4218

浏览量
219278
SSD

SSD

+关注

关注
21

文章
2895

浏览量
118012
HPC

HPC

+关注

关注
0

文章
327

浏览量
23882

原文标题：如何提高 HPC SoC 的可靠性、可用性和可维护性级别？

文章出处：【微信号：ICViews，微信公众号：半导体产业纵横】欢迎添加关注！文章转载请注明出处。

霍尔元件的可靠性测试步骤

霍尔元件是一种利用霍尔效应来测量磁场的传感器，广泛应用于电机控制、位置检测、速度测量以及电流监测、变频控制测试、交直流电源、电源逆变器和电子开关等领域。为了确保霍尔元件的性能和可靠性，进行全面

发表于 02-11 15:41 •66次阅读

电源滤波器的可维护性如何

电源滤波器可维护性包括模块化设计、易拆卸结构、耐腐蚀及散热材料、定期清洁检查、元件更换，维护成本低，智能化设计减少人工需求，定期性能测试监控性能变化。

发表于 01-09 09:48 •160次阅读

半导体封装的可靠性测试及标准

产品可靠性是指产品在规定的使用条件下和一定时间内，能够正常运行而不发生故障的能力。它是衡量产品质量的重要指标，对提高客户满意度和复购率具有重要影响。金鉴实验室作为一家提供检测、鉴定、认证和研发服务

发表于 11-21 14:36 •329次阅读

如何提高CAN总线的传输可靠性

提高CAN总线的传输可靠性可以从多个方面入手，以下是一些具体的方法：一、优化CAN总线设计选择合适的传输介质：使用屏蔽电缆或光纤等高质量的传输介质，以减少电磁干扰和信号衰减。合理布局与布线

发表于 11-21 10:26 •554次阅读

UPS电源的安全性和可靠性分析

随着信息技术的飞速发展，数据和信息已成为现代社会的重要资产。因此，确保数据的持续可用性和完整性变得至关重要。不间断电源（UPS）系统作为保护关键设备免受电力中断影响的重要手段，其安全性和可靠性

发表于 10-28 10:49 •742次阅读

无铅焊接的可靠性

电子发烧友网站提供《无铅焊接的可靠性.pdf》资料免费下载

发表于 10-16 10:50 •5次下载

PCB高可靠性化要求与发展——PCB高可靠性的影响因素（上）

的可靠性提出了更为严格的要求，特别是在焊接点的结合力、热应力管理以及焊接点数量的增加等方面。本文将探讨影响PCB可靠性的关键因素，并分析当前和未来提高PCB可靠性的制造技术发展趋势。

发表于 10-11 11:20 •460次阅读

利用TPS2116提高电表应用的系统可靠性

电子发烧友网站提供《利用TPS2116提高电表应用的系统可靠性.pdf》资料免费下载

发表于 09-24 09:21 •2次下载

如何提高RS485通信的可靠性？

通信可靠性下降。为了确保系统的稳定运行，提高RS485通信的可靠性至关重要。合理的布线与接地布线是影响RS485通信可靠性的重要因素之一。首先，应选择合适的线缆。R

发表于 09-20 08:07 •510次阅读

针对高可靠性应用的电压转换

电子发烧友网站提供《针对高可靠性应用的电压转换.pdf》资料免费下载

发表于 09-18 14:46 •0次下载

基于可靠性设计感知的EDA解决方案

产品可靠性，包括制造和运营方面，正在成为芯片-封装-系统迭代设计周期中设计的关键方面，尤其是那些有望承受更长使用寿命和可能的恶劣操作环境的产品，例如汽车电子系统、高性能计算（HPC）、电信

发表于 07-15 09:56 •503次阅读

汽车功能安全与可靠性的关系

当前，随着汽车领域的飞速发展，汽车也被重新定义。在汽车电子电气系统设计时，离不开对功能安全和可靠性设计的考虑。正确理解两者之间的关系，有助于更好地分析问题和解决问题。什么是汽车可靠性汽车可靠性是指

发表于 07-13 08:28 •3311次阅读

为了提高USIM卡电路的可靠性和稳定性，在电路设计中须注意的点有哪些？

为了提高USIM卡电路的可靠性和稳定性，在电路设计中须注意的点有哪些？

发表于 06-04 07:29

请问FATFS文件系统可靠性如何？

ST官方固件库中使用了FATFS文件系统，想问下，这个文件系统可靠么？我想了解一下，有哪位朋友真正产品上使用FATFS文件系统，可靠性有什么问题没有。

发表于 05-16 06:35

半导体可靠性手册

电子发烧友网站提供《半导体可靠性手册.pdf》资料免费下载

发表于 03-04 09:35 •24次下载