0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊云科技帮助客户在云中构建具有高可靠性和韧性的应用程序

科技新思路 来源:科技新思路 作者:科技新思路 2023-11-20 16:02 次阅读

在一个理想的世界里,一切都非常完美,并且一直都在顺畅运作。早晨的通勤没有交通堵塞,最喜欢的停车位一直空着,一杯温度适宜的饮料,生活一帆风顺,没有任何中断。在需要时,您能得到所需的东西。但这只存在于想象中的完美世界里。在现实世界里,一切往往不总是按计划进行。交通情况是多变的,每天我们可能停在不同的车位,有时,可能把一杯烫手的咖啡不小心弄洒了。

现在,考虑一下IT世界里发生的这些类似中断,而且规模更大:在全球范围内运行的服务和应用程序可能会遭遇意外中断,从而产生轻微或重大影响,具体取决于业务本身的性质。

例如在机场候机时,常用的手机应用程序意外发生崩溃,这属于影响轻微的中断;相比之下,由于网络服务中断,飞行员无法与机场塔台人员沟通,导致所有航班停飞,这就是影响重大的中断了。

韧性应用程序可减小发生此类中断的可能性,并尽量缩短发生故障时的恢复时间。韧性应用程序可确保服务在发生各种规模的中断时恢复过来,并在尽可能短的时间内再次可用。

我们来更深入地了解一下什么是韧性、我们如何构建云本身的韧性,以及亚马逊科技如何帮助客户在云中构建具有高可靠性和韧性的应用程序。

架构可靠:亚马逊云科技全球云基础设施及架构设计稳定可靠

云的韧性和可靠是承载云服务的硬件、软件、网络和设施所具备的抵御故障并快速从中断中恢复的能力,并尽可能减少云服务的中断。亚马逊云科技在确保云可靠性方面进行了大量投资,设计了高度可用的全球基础设施,在服务设计和部署机制中建立了保障措施,并将韧性融入平台的运营文化中。

全球基础设施:亚马逊云科技在全球范围内部署了32个区域、102个可用区,并宣布计划增加15个可用区和5个亚马逊云科技区域,以便支持为全球客户提供的200多项功能齐全的服务,并且这一数字还在不断增加。每个区域由一个地理区域内的多个隔离的且在物理上分隔的可用区组成,每个区域设计为3个以上的可用区,每个可用区都有独立的电力、冷却和物理安全性,并通过冗余的超低延迟网络进行互联。可以将应用程序在多个可用区或者多个区域内部署以实现更大的容错能力。

故障边界的隔离:在全球部署的同时,亚马逊云科技使用多种故障隔离结构来实现服务的韧性。这些故障隔离的边界将故障控制在已有故障域且可预测的范围内。亚马逊云科技服务的隔离边界包括:可用区(AZ)、区域(Region)、控制平面和数据平面。从故障隔离边界的维度看,亚马逊云科技运营三种不同类别的服务:可用区性、区域性和全球性。例如,每个区域级服务都部署了专用的基础设施和服务堆栈,且互相隔离,在跨区域调用时也足够的隔离机制。同时,每种服务的控制平面和数据平面都在不同的范围内进行隔离,即控制面的失败不影响数据面的运行,且不会扩散到相邻范围。(例如,控制台的失败不会影响现有云主机的运行)。综上,亚马逊云科技将故障发生时的爆炸半径控制住最小的范围内。

静态稳定设计:亚马逊云科技韧性设计的关键是保持“静态稳定性”。“静态稳定性”是依赖项发生故障或不可用期间系统无需进行更改就可以依然可以保持继续正常运行,在数据平面对资源的访问一旦配置,就不依赖于控制平面,因此不会受到任何控制平面失效的影响。换句话说,即使创建、修改或删除资源的能力受损,现有资源仍然可用。

单元架构:亚马逊云科技的服务采用单元架构的部署方式,即将单元作为云服务部署的基本单位,单元的大小受到限制且彼此隔离。这种设计减少了故障的影响范围,整体可用性得以提高并保持了服务的连续性,类似于船只中多个水密舱的设计。

卓越运营:实现云的可靠和韧性需要的不仅仅可靠的技术,它也需要人员、文化、流程和工具的支持。亚马逊云科技基于Two-Pizza team的服务所有模式组建团队和文化,通过安全的持续发布、运营就绪审查、错误更正流程等流程和工具来维护云服务的稳定运行。

事件预警:提供主动预警工具与机制,提前预防云上问题发生

同时,亚马逊云科技提供系列的工具、解决方案及方案论,帮助客户利用云本身的韧性,提升“云中的韧性”。

Amazon Health是您的权威信息来源,可从中了解关乎您的亚马逊云科技云资源的相应服务事件和计划更改情况。Amazon Health会向您发送有关服务事件、计划变更和账户的通知,以帮助您进行管理并采取行动。登录Amazon Health Dashboard可使用Amazon EventBridge查看特定于账户的Health信息或接收Health事件更新。您还可以使用Amazon Premium Support提供的Amazon Health API以编程方式访问Amazon Health。

Amazon Managed Services提供主动、预防和检测功能,这些功能提高了操作门槛,并帮助降低风险,而不限制敏捷性,使您能够专注于创新。AMS通过运营能力扩展您的团队,包括监控、事件管理、亚马逊云科技事件检测及响应服务、安全、补丁、备份和成本优化。

事前优化:提供系列工具及方法论,帮助客户提升云上业务可靠性

通过Well-Architect框架,构建韧性系统最佳实践:包含自动从故障中恢复,测试恢复过程,横向扩展以提高工作负载的可用性,在设计时,分布式系统的工作负载架构必须能够预防与减少故障,符合静态稳定性的实践,并具备隔离机制。同时系统的设计应能够检测故障并自动加以修复或转移。

全栈可观测性:包括亚马逊云科技原生、应用程序性能监控(APM)和开源解决方案,让您能够随时了解整个技术栈中发生的情况。可观测性让您可以在云、混合或本地环境中的网络、基础设施和应用程序中收集、关联、聚合和分析遥测数据,以便深入了解系统的行为、性能和运行状况。这些见解可帮助您更快地检测、调查和修复问题;结合人工智能机器学习,以主动反应、预测和预防问题。

事后协助:帮助客户构建云上可靠性能力,保障应用和数据高可靠运行

最后,实现业务连续性,合适的业务容灾备份策略也是十分重要的。亚马逊云科技提供完善的容灾与备份机制,从冷备份、实时异步复制业务数据,到实时复制业务数据、实时同步/异步双向复制业务数据,适用于不同RPO/RTO目标需求,帮助您提前做好准备提升可用性。

总结

云上业务连续性是创新的基石,亚马逊云科技基础设施经过精心构建,是当今最安全、最可靠的云计算环境之一,旨在提供一个高可扩展性、高可靠的平台,使您能够快速安全地部署应用程序、构建高可用的业务系统。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 应用程序
    +关注

    关注

    37

    文章

    3243

    浏览量

    57608
  • 云服务
    +关注

    关注

    0

    文章

    811

    浏览量

    38871
  • 亚马逊
    +关注

    关注

    8

    文章

    2627

    浏览量

    83199
收藏 人收藏

    评论

    相关推荐

    半导体封装的可靠性测试及标准

    产品可靠性是指产品规定的使用条件下和一定时间内,能够正常运行而不发生故障的能力。它是衡量产品质量的重要指标,对提高客户满意度和复购率具有重要影响。金鉴实验室作为一家提供检测、鉴定、认
    的头像 发表于 11-21 14:36 108次阅读
    半导体封装的<b class='flag-5'>可靠性</b>测试及标准

    微电子器件可靠性失效分析程序

    微电子器件可靠性失效分析程序
    的头像 发表于 11-01 11:08 1210次阅读
    微电子器件<b class='flag-5'>可靠性</b>失效分析<b class='flag-5'>程序</b>

    PCB高可靠性化要求与发展——PCB高可靠性的影响因素(上)

    电子工业的快速发展中,印刷电路板(PCB)的可靠性始终是设计和制造的核心考量。随着集成电路(IC)的集成度不断提升,PCB不仅需要实现更高的组装密度,还要应对高频信号传输的挑战。这些趋势对PCB
    的头像 发表于 10-11 11:20 265次阅读
    PCB<b class='flag-5'>高可靠性</b>化要求与发展——PCB<b class='flag-5'>高可靠性</b>的影响因素(上)

    基于TI电感传感技术的高可靠性低成本金属按键设计

    电子发烧友网站提供《基于TI电感传感技术的高可靠性低成本金属按键设计.pdf》资料免费下载
    发表于 09-26 09:17 0次下载
    基于TI电感传感技术的<b class='flag-5'>高可靠性</b>低成本金属按键设计

    针对高可靠性应用的电压转换

    电子发烧友网站提供《针对高可靠性应用的电压转换.pdf》资料免费下载
    发表于 09-18 14:46 0次下载
    针对<b class='flag-5'>高可靠性</b>应用的电压转换

    高可靠性BAW振荡器MTBF和时基故障率计算

    电子发烧友网站提供《高可靠性BAW振荡器MTBF和时基故障率计算.pdf》资料免费下载
    发表于 08-29 11:52 0次下载
    <b class='flag-5'>高可靠性</b>BAW振荡器MTBF和时基故障率计算

    内置900V~1500V MOSFET的高可靠性AC-DC电源芯片

    内置900V~1500V MOSFET的高可靠性AC-DC电源芯片
    的头像 发表于 08-08 09:50 734次阅读
    内置900V~1500V MOSFET的<b class='flag-5'>高可靠性</b>AC-DC电源芯片

    红外探测器封装秘籍:高可靠性键合工艺全解析

    红外探测器现代科技领域中扮演着举足轻重的角色,广泛应用于温度检测、环境监控、医学研究等领域。为了提升红外探测器的性能和可靠性,其封装过程中的键合工艺尤为关键。本文旨在深入探讨红外探测器芯片的高可靠性键合工艺,以期为相关领域的实
    的头像 发表于 05-23 09:38 720次阅读
    红外探测器封装秘籍:<b class='flag-5'>高可靠性</b>键合工艺全解析

    长电科技为自动驾驶芯片客户提供多样化高可靠性的封装测试解决方案

    长电科技作为全球领先的集成电路成品制造和技术服务提供商,在先进封装领域深耕多年,可为自动驾驶芯片客户提供多样化、高可靠性的封装测试解决方案和配套产能。
    的头像 发表于 05-14 10:26 1106次阅读
    长电科技为自动驾驶芯片<b class='flag-5'>客户</b>提供多样化<b class='flag-5'>高可靠性</b>的封装测试解决方案

    亚马逊科技中国区域推出Amazon Network Firewall

    Network Firewall,帮助客户更轻松地为其运行在亚马逊科技上的工作负载提供网络安全防护。Amazon Network Firewall是一项完全托管的服务,
    的头像 发表于 03-07 16:02 670次阅读

    如何确保IGBT的产品可靠性

    标准。安森美(onsemi)作为一家半导体供应商,为高要求的应用提供能在恶劣环境下运行的产品,且这些产品达到了高品质和高可靠性。之前我们分享了如何对IGBT进行可靠性测试,今天我们来介绍如何通过可靠性审核
    的头像 发表于 01-25 10:21 1567次阅读
    如何确保IGBT的产品<b class='flag-5'>可靠性</b>

    IGBT的可靠性测试方案

    标准。安森美 (onsemi) 作为一家半导体供应商,为高要求的应用提供能在恶劣环境下运行的产品,且这些产品达到了高品质和高可靠性
    的头像 发表于 01-17 09:56 1354次阅读
    IGBT的<b class='flag-5'>可靠性</b>测试方案

    太阳诱电高可靠性元件工业设备用途

    本文为各位介绍太阳诱电高可靠性元件-信息基础太阳诱电高可靠性元件-信息基础设备·工业设备用途设备·工业设备用途的分类、特点&优势、基础信息等。
    的头像 发表于 01-06 15:12 804次阅读
    太阳诱电<b class='flag-5'>高可靠性</b>元件工业设备用途

    IPC-9797A_EN 汽车要求和其他高可靠性应用的压配标准

    电子发烧友网站提供《IPC-9797A_EN 汽车要求和其他高可靠性应用的压配标准.pdf》资料免费下载
    发表于 12-25 09:48 64次下载

    用于高可靠性应用的PME和BME MLCC之对比

    用于高可靠性应用的PME和BME MLCC之对比
    的头像 发表于 12-01 16:00 730次阅读
    用于<b class='flag-5'>高可靠性</b>应用的PME和BME MLCC之对比