0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云上多活高可用架构,助力企业实现业务无缝切换与持续稳定运行

科技讯息 来源:科技讯息 作者:科技讯息 2023-11-08 14:12 次阅读

互联网技术的飞速发展,企业对于云上业务系统的稳定性、可靠性和可扩展性要求越来越高。云上往往都是重要的业务系统,一旦发生故障,如何快速恢复和降低影响面是企业最为关心的。因此,越来越多的企业开始关注云上多活高可用架构,以实现业务的无缝切换和持续稳定运行。2023年云栖大会现场阿里云高级专家丁杰现场分享了《云上多活高可用架构的趋势和实践》的主题演讲,详细介绍了阿里云在多活高可用架构的实践现状与未来趋势的分析展示。

wKgaomVLJrCATgoHAAH3-G7gJSk55.jpeg

多活高可用,发挥云的核心价值

随着企业业务的不断拓展,对于云的连续性的要求也越来越高。而云计算的核心价值在于其弹性和稳定性。弹性意味着云计算资源可以根据业务需求进行快速伸缩,以满足业务的高峰期需求。稳定性则确保了云服务在面对各种挑战时,如硬件故障或网络中断,仍能提供持续的服务。多活高可用是云的核心弹性和稳定性的重要体现。

例如,大家所熟悉的“热搜崩了”就是指某些高流量的社交媒体或新闻网站由于访问压力过大而导致服务暂时无法正常提供。这种情况可能会因为各种原因发生,比如流量瞬间增大、服务器故障、网络问题或者恶意攻击等。为了解决此类问题,提高服务背后的应用弹性,能快速实现业务单元的快速扩容,这是一种常见的解决方案也是云上的弹性架构的最佳实践之一。

另外比如一个在线购物网站为了保证用户可以随时下单购买商品,需要确保网站始终处于可用状态。为了实现这一点,我们可以将下单链路部署到多个地域/机房/可用区上,通过应用多活或者彻底单元化进行流量管控、应用部署和数据的同步策略。当一个地域出现故障时,其他地域可以立即接管用户的请求,确保网站的正常运行。可以把这种地域宏观层面的容错场景看作一种多活高可用。

wKgZomVLJrCABlJDAAHQqn2D54A192.png

云的“弹性”,首先是资源层面的弹性,阿里云通过大规模服务器并池、智能调配和资源规划,通过横向的快速生产和纵向的升降配能力,实现了强大的供给侧弹性能力。也主要是面向单Region维度的。

跨Region,除了公共云上的地域概念,还包括物理的数据中心和自建IDC,也是把包含了公共云的混合云类架构囊括进来了,做到云上云下互相备份和利用公共云的弹性。

在跨Region的用法上,业务的弹性是通过快速建立异地云站点(作业中心),突破单云单地域的资源限制,提升业务抗风险能力和业务容量吞吐,充分利用混合云、多地域的云资源优势。一些企业案例的共同点都是结合业务把相应的单元通过公共云实现弹性,云的可用区和客户的可用区也进行深度的融合。

在跨Region+业务弹性两个前提下,通过多活容灾服务构建跨Region级的流量调度能力、业务容量体系和故障应对体系,突破单地域基础设施稳定性强依赖,在不显著降低资源利用率的情况下(核心链路对等双活同时最好容量管理和流量防护),极大增强业务整体稳定性和连续性。

如何在云上构建业务的弹性和多活

多活高可用是当前云计算和IT领域中的一个重要趋势。丁杰在演讲中提到“资源弹性不等于业务弹性,云平台稳定性不等于业务稳定性,应用多活将成为云原生容灾领域的重要趋势。”

阿里云作为全球领先的云计算服务提供商,致力于为企业提供稳定、可靠、高效的云服务,提供了一系列产品和服务来支持多活高可用架构的部署和运行。

wKgaomVLJrGAfXnoAAC9Q80Ri4k305.png

首先,阿里云提供了应用高可用服务AHAS,该产品基于阿里云内部高可用架构最佳实践而打造,主要提供多活容灾、容灾演练等能力,基于该产品的多活容灾MSHA(Multi-Site High Availability)能力,结合服务能帮助用户体系化、标准化低侵入地建设云上高可用架构,全面提升业务稳定性。

它是通过三层抽象的适配+管控+切换+演练来支持的,MSHA提供接入层、服务层、数据层的自研组件,适配客户侧的技术栈,集成到客户应用架构之中。MSHA本身也是支持容灾多活架构的演进的,从同城双活、异地应用双活到单元化等。管控方面,MSHA管控面提供给用户对多活‘架构’的构建和维护,故障场景的整体协同。切换方面,结合流量和数据规则定义、容灾场景下的快速切流等能力,下发管控规则到MSHA组件执行流量管控动作。

容灾多活最重要的是关键时刻的切换能力,切换很多时候业务需要的是能更快速甚至是自动化,缩减RTO,减少损失。所以类似于机房故障自动切零、集群故障自动切换是最为紧要的两个场景,整体来说我们会基于可观测->事件中心->决策&执行的大体逻辑来实现,可观测聚合后形成事件,然后在问题定界上判断半径,专家经验更多的在切流成功与否、禁写和一致性风险上提供经验库,最终系统完成主备/流量的切换或者扩容。

多活模式与架构产品

wKgZomVLJrGAFWoaAACH5ozzYp8543.png

wKgaomVLJrGAdnOGAACZMiRsNTQ110.png

完全在公有云上建设跨可用区或Region的应用双活方式与公共云+线下专有云/IDC的混合云多活模式均是多活架构设计中的常见实践策略。

wKgZomVLJrKAfOqjAACOildslpw83.jpeg

wKgaomVLJrOAH7AGAAByZhxkqyM17.jpeg

云多活模式均是多活架构设计中的常见实践策略。


左边是基于公共云的两地三活(同城跨可用区+异地跨Region),其业务多活单元不等同于单元化,是指根据业务特点在逻辑上分成⼏个逻辑数据中⼼(LDC),命名为单元,核⼼业务在各数据中⼼(LDC)实现⾃流转。业务单元之间,应用多活数据主备。关于单元间的流量,同城一般是对称的,异地会按照特定规则的区分调度业务流量,比如某些延时不敏感的调度到异地的单元,或者是特定条件的用户群调度到异地,异地一般流量很小来保持单元的“热度”,然后在故障场景再通过切流和快速扩容应对。这种架构相对单元化来说改造成本低,兼顾成本和稳定性。

右边是第二种架构模式实践,是阿里公共云+阿里专有云/自建IDC的模式。其本质是希望通过混合云架构解决稳定性和成本问题+通过公共云的部分享受弹性的综合优势,充分利用混合异构的优势。一般简称为往云上弹和往云上逃(故障逃逸)。

这种模式的优势是充分利用了线下资源和即有资产,通过云上来逃逸和弹性扩容,业务上细分云上和云下的流量,这也是我们今天分享的业务弹性和混合云的典型思路。

关于建站工具

除了上文提及的多活产品,业务维度的单元快速建站和拉起也很关键。通过云迁移中心CMH,可以通过架构感知、自动编排、资源创建和全站还原4大能力,在业务架构筛选、自定义建站模版、一站式资源创建和复制配置、快速数据准备等具体的方案能力上提供支撑。

wKgZomVLJrSAcGTLAACPFzVd0SQ158.png


多活高可用整体架构的建设和保鲜提升的能力体系。

对于多活架构的持续演练使其保鲜极为关键,这样当故障真的来临时才敢切换也知道切换的效果和影响面。

wKgaomVLJrSAZmggAACr01PaOAE772.png

结合我们方案交付和工具建设的经验,整理了多活架构管理模型,以指导我们进行多活架构的度量、交付、提升的全周期管理。我们在多活架构上按照架构、能力、保鲜和规范4大维度,进而继续拆分2-3层,通过上百个因子来进行业务应用架构的多活能力度量和建设指导。比如高可用架构中的流量防护架构、业务容量规划架构,这些架构是确保规划后的单元能力在承载故障切换之后过大的流量而不被冲垮,相应规划的容量是确保预设的核心链路的吞吐的,故障场景下通过较低的冗余成本来支撑住核心业务的容灾,整体是ROI比较高的做法。同样的,类似故障隔离能力中的服务内聚、资源隔离和依赖解耦能力,这些能力是在设计阶段的,我们更多的是通过合适的演练方式去检验验收。

wKgZomVLJreAQuM9AAD6i_s27A4940.png

整体的多活架构体系能力,在理论模型三个维度基础架构能力、架构健康度和管理规范度的牵引之下,在CMH云迁移中心纳管的应用上云、云化之后的架构量化支撑之上,基于AHAS产品的多活能力MSHA,在多活的建设场景围绕多活容灾标准交付动作进行多活架构的建设,然后演练保鲜期围绕高可用演练标准交付和演练验证方案库进行验证演练提升,整体构成了多活高可用整体架构的建设和保鲜提升的能力体系。

多活高可用架构助力企业创新发展

从冷备到同城双活,再到异地双活和异地多活,多活高可用整体架构的建设和保鲜,技术的发展反映了对业务连续性和稳定性的不断追求。对于提升企业的服务质量和用户体验具有重大的意义,是构建现代数据中心、云计算等高科技设施不可或缺的一部分。

阿里云应用高可用服务AHAS提供了丰富的多活工具,可以成为企业实现业务无缝切换和持续稳定运行的重要手段。在未来的发展中,完整的多活高可用架构交付体系将继续为企业提供稳定、可靠、高效的产品和服务,助力企业实现业务的持续发展和创新。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 架构
    +关注

    关注

    1

    文章

    516

    浏览量

    25498
收藏 人收藏

    评论

    相关推荐

    确保网站无缝运行:Keepalived可用与Nginx集成实战

    目录 keepalived可用(nginx) keepalived简介 keepalived的重要功能 keepalived可用架构
    的头像 发表于 11-27 09:08 540次阅读
    确保网站<b class='flag-5'>无缝</b><b class='flag-5'>运行</b>:Keepalived<b class='flag-5'>高</b><b class='flag-5'>可用</b>与Nginx集成实战

    Commvault支持企业实现持续业务

    攻击影响,网络弹性成为企业的“必需品”。而如何在广为采用的复杂混合模式下构建强大的网络弹性,并将其转化为持续业务的竞争优势成为当今企业亟待
    的头像 发表于 11-22 16:27 231次阅读

    双十一服务器新选择!华为 Flexus X 实例赋能业务高效运行

    发展的需要。作为业界首款应用驱动的柔性算力服务器,华为 Flexus X 实例基于擎天 QingTian 架构、瑶光脑、盘古大模型等根技术创新加持,以更灵活、品质跃级的
    的头像 发表于 11-16 11:44 520次阅读
    双十一<b class='flag-5'>云</b>服务器新选择!华为<b class='flag-5'>云</b> Flexus X 实例赋能<b class='flag-5'>业务</b>高效<b class='flag-5'>运行</b>

    【软件干货】Android应用进程如何保

    在Android应用程序中,为了保证应用的正常运行稳定性,有时需要对应用进程进行保。以下是一些实现进程保的方法:
    的头像 发表于 10-15 17:05 496次阅读
    【软件干货】Android应用进程如何保<b class='flag-5'>活</b>?

    海外大带宽服务器是什么?稳定性如何

    海外大带宽服务器是一种提供高速网络连接和强大计算能力的服务器,它因其带宽和快速响应速度,在视频直播、在线游戏、大数据分析等领域有广泛应用。关于其稳定性,由于拥有高性能的硬件设施和专业的维护服务,能够提供
    的头像 发表于 08-20 11:12 372次阅读

    英国公司实现英伟达CUDA软件在AMD GPU无缝运行

    7月18日最新资讯,英国创新科技企业Spectral Compute震撼发布了其革命性GPGPU编程工具包——“SCALE”,该工具包实现了英伟达CUDA软件在AMD GPU无缝
    的头像 发表于 07-18 14:40 676次阅读

    中软国际全栈规划实施服务,助力企业无忧

    随着计算技术的快速发展,企业实现数字化转型的关键一步,已成为企业提升IT能力、优化
    的头像 发表于 05-28 18:02 607次阅读
    中软国际全栈<b class='flag-5'>上</b><b class='flag-5'>云</b>规划实施服务,<b class='flag-5'>助力</b><b class='flag-5'>企业</b><b class='flag-5'>上</b><b class='flag-5'>云</b>无忧

    华为 FunctionGraph 构建可用系统的实践

    ,详细介绍如何构建可用的 Serverless 计算平台,实现客户和平台双赢。 可用介绍
    的头像 发表于 05-09 23:14 482次阅读
    华为<b class='flag-5'>云</b> FunctionGraph 构建<b class='flag-5'>高</b><b class='flag-5'>可用</b>系统的实践

    华为可用服务 MAS 荣获“2023 年香港星光奖”

    近期 ,华为可用服务 MAS (Multi-Site High Availability Service,简称 MAS) 荣获“20
    的头像 发表于 04-04 20:38 1983次阅读
    华为<b class='flag-5'>云</b><b class='flag-5'>多</b><b class='flag-5'>活</b><b class='flag-5'>高</b><b class='flag-5'>可用</b>服务 MAS 荣获“2023 年香港星光奖”

    分布式运维管理平台助力大型电商系统稳定运行的案例分析

    成为电商企业解决这些问题的重要工具。本文将结合某大型电商企业的实际案例,分析分布式运维管理平台如何助力电商系统稳定运行。 二、案例背景 某大
    的头像 发表于 03-26 16:32 484次阅读

    华为网站可用解决方案引爆华为开年采购季:助力场景下业务可用、数据可靠

    随着数字化转型进程不断深入,企业核心系统的稳定性、业务的连续性逐渐成为影响企业
    的头像 发表于 03-17 12:30 292次阅读

    业务光端机助力5G网络发展:实现更高速、更稳定的连接

    随着5G技术的快速发展和广泛应用,人们对网络速度和稳定性的要求也越来越高。业务光端机作为一种高速、高效的光通信设备,正逐渐成为5G网络建设中不可或缺的关键设备,为5G网络的发展提供了强大的支持
    的头像 发表于 02-23 14:08 622次阅读

    无缝高清矩阵切换器有哪些主要的应用场景?

    到会议室的显示设备,方便参会人员观看不同的视频内容。 安防监控:在安防监控系统中,无缝高清矩阵切换器可以将多个摄像机的视频信号切换到监控中心的显示屏
    的头像 发表于 01-24 14:40 483次阅读
    <b class='flag-5'>无缝</b>高清矩阵<b class='flag-5'>切换</b>器有哪些主要的应用场景?

    了解无缝高清矩阵切换器的核心优势与性能

    切换器在信号切换过程中不会出现黑屏、闪屏或延迟等问题,实现真正的无缝切换,提供流畅、连续的视频体验。 强大的扩展性和灵活性:
    的头像 发表于 01-24 14:34 497次阅读

    多格式支持:无缝高清矩阵切换器的灵活应用

    无缝高清矩阵切换器的多格式支持是其灵活应用的关键之一。通过多格式支持,切换器能够满足不同设备、不同应用场景和不同传输协议的需求,实现视频信号的多样化传输和处理。 首先,
    的头像 发表于 01-24 14:33 415次阅读