分布式系统中保证高可用性的常用经验-电子发烧友网

系统可用性指标

系统可用性指标简单来讲就是系统可用时间与总运行时间之比

Availability=MTTF/（MTTF+MTTRMTTF）

MTTF 是 Mean Time To Failure，指平均故障前的时间，即系统平均能够正常运行多长时间才发生一次故障。系统的可靠性越高，MTTF 越长（简单理解MTTF 就是指系统正常运行的时间）。MTTR 是 Mean Time To Recovery，平均修复时间，即从故障出现到故障修复的这段时间，也就是系统不可用的时间，这段时间越短越好。系统可用性指标可以用通过下表的999标准衡量，现在普遍要求至少2个9，最好4个9以上：

故障不可避免

高可用性是指系统提供的服务要始终可用，然而故障不可避免，特别是在分布式系统，面对不可控的用户流量和机房环境，系统故障将会显得更加复杂和不可预测。在大规模的分布式系统中，各个模块之间存在错综复杂的依赖，任一一个环节出现问题，都有可能导致雪崩式、多米诺骨牌式的故障，甚者可以断言出现故障成了常态。

如上图的分布式系统中，用户请求系统中的某个服务接口，请求需要经过长长的调用链才能处理返回。我们起码要保证网络连接正常，服务网关正常、前端服务正常、后台服务正常、数据库正常，请求才能被正常处理，如果调用链中的任一环节出现问题，都会直接反馈到用户体验上。

系统出现故障的原因多种多样，主要有以下这些：

网络问题，网络连接故障，网络带宽出现超时拥塞等；

性能问题，数据库慢查询、Java Full GC、硬盘 IO 过大、CPU 过高、内存不足等

安全问题，被网络攻击，如 DDoS 等、异常客户端请求，如爬虫等。

运维问题，需求变更频繁不可控，架构也在不断地被调整，监控问题等；

管理问题，没有梳理出关键服务以及服务的依赖关系，运行信息没有和控制系统同步；

硬件问题，硬盘损坏、网卡出问题、交换机出问题、机房掉电、挖掘机问题（前一阵子机房电缆就经常被挖断）等；

面对如此多的天灾人祸，可控和不可控的故障因素，似乎系统的高可用性变成不可能完成的任务，但是在日常开发运维中，我们可以采用一些有效的设计、实现和运维手段来提高系统的高可用性，尽量交付一个在任何时候都基本可用的系统。

冗余设计

分布式系统中单点故障不可取的，而降低单点故障的不二法门就是冗余设计，通过多点部署的方式，并且最好是部署在不同的物理位置，避免单机房中多点同时失败。冗余设计不仅可以提高服务的吞吐量，还可以在出现灾难时快速恢复。目前常见的冗余设计有主从设计和对等治理设计，主从设计又可以细分为一主多从、多主多从。

冗余设计中一个不可避免的问题是考虑分布式系统中数据的一致性，多个节点中冗余的数据追求强一致性还是最终一致性。即使节点提供无状态服务，也需要借助外部服务，比如数据库、分布式缓存等维护数据状态。根据分布式系统下节点数据同步的基本原理CAP（Consistency （一致性）、Availablity （可用性）、Partition tolerance （分区容忍性）三个指标不可同时满足），数据强一致性的系统无法保证高可用性，最典型的例子就是 Zookeeper。

Zookeeper 采用主从设计，服务集群由 Leader、Follower 和 Observer 三种角色组成，它们的职责如下：

Leader： Zookeeper 集群使用 ZAB 协议通过 Leader 选举从集群中选定一个节点作为 Leader。Leader 响应客户端的读写请求；

Follower：只提供数据的读服务，会将来自客户端的写请求转发到 Leader 中。在 Leader 选举的过程中参与投票，并与 Leader 维持数据同步；

Observer：与 Folllower 的功能相同，但不参与 Leader 选举和写过程的“过半写成功”策略，单纯为了提高集群的读能力。

在 Zookeeper 集群中，由于只有 Leader 角色的节点具备写数据的能力，当 Leader 节点宕机时，在新的 Leader 节点没有被选举出来之前，集群的写能力都是不可用的。虽然 Zookeeper 保证了集群数据的强一致性，但是放弃了集群的高可用性。对等治理设计中比较优秀的业内体现为 Netiflx 开源的 Eureka 服务注册和发现组件。Eureka 集群由 Eureka Client 和 Eureka Server 两种角色组成，其中 Eureka Client 是指服务实例使用的服务注册和发现的客户端，用于注册和查询服务实例信息；Eureka Server 作为服务注册中心，存储有各服务的实例信息列表，采用多实例的方式部署保证高可用性。每一个 Eureka Server 都是对等的数据节点，Eureka Client 可以向任意的 Eureka Server 发起服务注册请求和服务发现请求。Eureka Server 之间的数据通过异步 HTTP 的方式同步，由于网络的不可靠性，不同 Eureka Server 中的服务实例数据不能保证在任意时间节点都相等，只能保证在 SLA 承诺时间内达到数据的最终一致性。Eureka 点对点对等的设计保证了服务注册与发现中心的高可用性，但是牺牲了数据的强一致性，降级为数据的最终一致性。

熔断设计

在分布式系统中，一次完整的请求可能需要经过多个服务模块的通力合作，请求在多个服务中传递，服务对服务的调用会产生新的请求，这些请求共同组成了这次请求的调用链。当调用链中的某个环节，特别是下游服务不可用时，将会导致上游服务调用方不可用，最终将这种不可用的影响扩大到整个系统，导致整个分布式系统的不可用，引发服务雪崩现象。

为了避免这种情况，在下游服务不可用时，保护上游服务的可用性显得极其重要。对此，我们可以参考电路系统的断路器机制，在必要的时候壮士断腕，当下游服务因为过载或者故障不能用时，及时“熔断”服务调用方和服务提供方的调用链，保护服务调用方资源，防止服务雪崩现象的出现。

断路器的基本设计图如下，由关闭、打开、半开三种状态组成：

关闭（Closed）状态：

此时服务调用方可以调用服务提供方。断路器中使用失败计数器周期性统计请求失败次数和请求总次数的比例，如果最近失败频率超过了周期时间内允许失败的阈值，则切换到打开（Open）状态。在关闭状态下，失败计数器基于时间周期运作，会在每个统计周期开始前自动重置，防止某次偶然错误导致断路器进入打开状态。

打开（Open）状态：

在该状态下，对应用程序的请求会立即返回错误响应或者执行预设的失败降级逻辑，而不调用服务提供方。断路器进入打开状态后会启动超时计时器，在计时器到达后，断路器进入半开状态。

半开（Half-Open）状态：

允许应用程序一定数量的请求去调用服务。如果这些请求对服务的调用成功，那么可以认为之前导致调用失败的错误已经修正，此时断路器切换到关闭状态，同时将失败计数器重置。如果这一定数量的请求存在调用失败的情况，则认为导致之前调用失败的问题仍然存在，断路器切回到打开状态，并重置超时计时器来给系统一定的时间来修正错误。半开状态能够有效防止正在恢复中的服务被突然而来的大量请求再次打垮。

使用断路器设计模式，能够有效地保护服务调用方的稳定性，它能够避免服务调用者频繁调用可能失败的服务提供者，防止服务调用者浪费 CPU 周期、线程和 IO 资源等，提高服务整体的可用性。

小结

本文主要介绍了几种高可用的设计，除了上面介绍的方式之外，还有限流设计和一些其他设计与方案，如降级设计、无状态设计、幂等性设计、重试设计、接口缓存、实时监控和度量以及常规划化维护。

原文标题：进来抄作业吧！分布式系统中保证高可用性的常用经验

文章出处：【微信公众号：华为开发者社区】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

分布式系统

分布式系统

+关注

关注
0

文章
146

浏览量
19219

原文标题：进来抄作业吧！分布式系统中保证高可用性的常用经验

文章出处：【微信号：Huawei_Developer，微信公众号：华为开发者社区】欢迎添加关注！文章转载请注明出处。

分布式光伏监控系统在能源领域中的重要性

在当今能源领域，分布式光伏发电作为一种可持续的能源解决方案正日益普及。而分布式光伏监控系统在其中扮演着至关重要的角色，为分布式光伏发电的高效运行和管理带来了诸多显著好处。一、提升发电

发表于 12-09 14:39 •186次阅读

<b class='flag-5'>分布式</b>光伏监控<b class='flag-5'>系统</b>在能源领域中的重要<b class='flag-5'>性</b>

使用bq769x0对高可用性系统进行故障监控

电子发烧友网站提供《使用bq769x0对高可用性系统进行故障监控.pdf》资料免费下载

发表于 10-15 10:13 •0次下载

使用bq769x0对<b class='flag-5'>高</b><b class='flag-5'>可用性</b><b class='flag-5'>系统</b>进行故障监控

一文讲清什么是分布式云化数据库！

分布式云化数据库是一种先进的数据管理系统，它将传统的数据库技术与分布式计算、云计算和大数据处理技术相融合。这种数据库架构旨在提供高可用性、

发表于 10-14 10:06 •218次阅读

分布式存储费用高吗？大概需要多少钱

分布式存储的费用是否高，取决于多个因素，包括存储容量、性能要求、服务提供商、计费模式等。因此，无法简单地给出一个“高”或“不高”的答案。通常分布式存储费用通常包含存储费用、网络费用、增

发表于 09-24 10:41 •257次阅读

分布式云化数据库的优缺点分析

分布式云化数据库的优点主要体现在高可用性和容错性、可扩展性、体系结构、数据一致性、成本、升级迭代等方面。同时也存在一些缺点，如通信开销较大、

发表于 09-14 09:42 •256次阅读

浅析分布式风电电池储能系统可用性

【摘要】以内蒙古某一实际分布式风电-电池储能系统的设计和运行效果为基础,对影响其可用性的关键因素进行了分析。结果显示:能量管理系统的设计需要考虑功率补偿控制以抵消储能

发表于 08-20 09:36 •971次阅读

浅析<b class='flag-5'>分布式</b>风电电池储能<b class='flag-5'>系统</b><b class='flag-5'>可用性</b>

分布式大屏控制系统对网络环境的要求

分布式大屏控制系统对网络环境的要求较高，主要是因为该系统需要实时传输大量的视频信号数据，以保证多个显示屏幕的同步显示。以下是几个关键的网络环境要求：

发表于 01-29 14:52 •573次阅读

如何提高分布式大屏控制系统的稳定性和可靠性

提高分布式大屏控制系统的稳定性和可靠性可以从以下几个方面入手：架构设计：在系统架构设计阶段，应采用高可

发表于 01-29 14:39 •403次阅读

分布式大屏控制系统的应用场景

分布式大屏控制系统具有广泛的应用场景，主要涉及以下几个方面：监控指挥中心：如交通指挥中心、电力调度中心、应急指挥中心等，用于实时监控、调度和指挥，保证系统的安全、稳定、高效运行。会

发表于 01-29 14:25 •738次阅读

设计高效分布式智慧终端系统的关键要素

和隐私性。这包括数据加密、身份认证、访问控制等机制，以及制定严格的安全政策和操作规程，确保系统的安全性。数据一致性：在分布式

发表于 01-24 14:52 •355次阅读

分布式智慧终端：挑战与解决方案

分布式智慧终端在应用中面临多种挑战，以下是其中一些关键的挑战以及可能的解决方案：数据一致性挑战：在分布式系统中，数据的一致性是一个关键问

发表于 01-24 14:50 •440次阅读

保障数据完整性：分布式无纸化交互系统的关键特性

系统应采用可靠的数据传输协议，保证数据在传输过程中不发生丢失或被篡改。此外，系统还应采用端到端加密技术，确保数据在传输过程中的安全性。其次，对于数据的存储，

发表于 01-15 14:28 •346次阅读

什么是分布式架构?

分布式架构是指将一个系统或应用拆分成多个独立的节点，这些节点通过网络连接进行通信和协作，以实现共同完成任务的一种架构模式。这种架构模式旨在提高系统的可扩展性、可靠性和性能表现。一、

发表于 01-12 15:04 •1229次阅读

分布式节点服务器是什么?

分布式节点服务器是一种将多个服务器分布式连接、协同工作，以实现负载均衡、提高系统性能和可靠性、提供高可用

发表于 01-12 15:04 •737次阅读

分布式锁的三种实现方式

分布式锁的三种实现方式 分布式锁是在分布式系统中用于实现对共享资源进行访问控制的一种机制。分布式锁的实现需要考虑

发表于 12-28 10:01 •894次阅读

搜索历史

分布式系统中保证高可用性的常用经验

评论

分布式光伏监控系统在能源领域中的重要性

使用bq769x0对高可用性系统进行故障监控

一文讲清什么是分布式云化数据库！

分布式存储费用高吗？大概需要多少钱

分布式云化数据库的优缺点分析

浅析分布式风电电池储能系统可用性

分布式大屏控制系统对网络环境的要求

如何提高分布式大屏控制系统的稳定性和可靠性

分布式大屏控制系统的应用场景

设计高效分布式智慧终端系统的关键要素

分布式智慧终端：挑战与解决方案

保障数据完整性：分布式无纸化交互系统的关键特性

什么是分布式架构?

分布式节点服务器是什么?

分布式锁的三种实现方式