从阿里云盘崩溃谈起，云平台稳定性如何保证？-电子发烧友网

近日，阿里云盘爆发故障，停服了近5小时，随后官方发了道歉信，也明确了赔偿方案，但故障原因至今未公布。坊间传言是因为用户集中下载某电视剧资源所致，具体情况不明。

阿里云盘和阿里云有没有关系呢？虽然这是两个独立的品牌，但阿里云盘应该算是阿里云主要的SaaS产品之一，其资源肯定也是承载在阿里云的平台上的，所以这个故障算到阿里云头上应该不冤。

这是继阿里云香港区故障后，又一次引发社会舆论关注的故障事件。当然，发生故障并不可怕，IT系统发生故障太正常不过了，但一个机房出问题就全局宕机了？一个系统故障就导致服务中断5个小时？说好的可用区隔离，跨区高可用，自动恢复自动切换，这些写进SLA里的保障措施全部失效！这就有点不同寻常了。

从这个角度看，这两次故障事件正在折射出阿里云一些内部的问题，甚至直接暴露出包括阿里云在内的云厂商巨头在前些年野蛮生长、快速扩张过程中遗留下来的很多bug还有待修补。这些bug的构成非常复杂，有技术的因素，也有机制流程的因素，还有人的责任意识的因素，如果这些bug不能在短时间内得到有效解决，可以预料，这样级别的故障可能还将发生，这对阿里云等巨头们的品牌形象、客户信任度都是严重的伤害。

更关键的是，当前国内云计算应用已从互联网拓展至政务、金融、工业、医疗、交通等传统行业，在这个过程中，云上系统的复杂度极大提升，给云厂商带来的挑战将会更大！

其一，云上系统深度应用微服务等云原生技术架构，应用之间存在错综复杂的依赖关系，服务性能瓶颈难以分析，故障影响范围难以评估，故障根因难以定位，给平台的运维保障工作带来了诸多困难；

其二，云上系统的故障率会随设备的增加而呈指数级增长，单一节点问题可能会被无限放大，日常运行过程中不可避免的伴随异常发生，如何解决这些偶发、突发的问题，仍是一个技术难题；

其三，云上系统节点分布范围更广、数量更多，高度依赖网络质量，给日常运维过程中的日志采集、变更升级等都带来了新的挑战。

与此同时，由于产业互联网核心业务上云进程加速，而核心业务系统作为支撑用户服务的关键，往往具备业务连续性要求高、并发请求量大、业务激增随机性强的特点，一旦发生故障，其影响范围更大，后果更严重。为什么阿里云香港区事件直接导致阿里云换帅，正是因为事件影响的范围极广，对阿里云的品牌形象造成了极大的损害。

那该怎么办呢？

从阿里云近期接连的两次故障来看，云服务商亟需加深对云上系统稳定性的认知，构建安全生产和稳定性保障双体系，推动云上系统的稳定性持续提升。

第一、建设云上业务安全生产体系，完善流程管理机制

一是事前的主动防御，通过完备的故障分析、风险检测、全局管控等事前风险防护治理手段，变被动为主动，尽量减少故障风险发生的概率；

二是事中的全局监控，通过深度应用大数据、人工智能等技术，对信息系统进行全局监测和预警，实现实时风险态势感知；

三是事后的应急保障，将信息化手段与传统方式相融合，多种应急方式，最大程度降低业务系统故障导致的损失和影响，有效保障业务系统的稳定性和连续性。

在这个过程中还有一个关键点在于人的责任意识的培养，所有管理机制流程到最后还是需要人来执行落地。在这方面，运营商云或许更有优势，毕竟电信运营商刻在DNA里的就是对“保障通信生命线”的追求，电信级服务对他们来说是一种信仰，也是一种职业习惯。

第二、构筑全流程稳定性保障体系，提升技术保障能力

事前做好规划工作，设计高度韧性系统。在软件设计阶段，重点关注系统架构和容量规划的设计，同时配合混沌工程实验持续保持、提升系统韧性。

事中全方位检测，提高系统故障逃逸能力。通过对链路中各环节运行数据的整合及联动，在故障发生时帮助运维人员迅速定位故障原因，最大化利用系统的观测数据辅助进行根因分析，实现高效的故障修缮与恢复。此外，要确保“应用多活”成为保障业务连续性的关键抓手，而并非是一句宣传口号。当灾难（含基础设施故障）发生时，多活系统在分钟级内实现业务流量切换，有效保障业务系统持续稳定运行，提升系统故障逃逸能力。

事后构建故障闭环，降低故障复现率。完善故障管理机制，故障管理机制包括规范管理故障响应流程、故障升级机制、故障复盘机制，规范技术人员在应对突发故障时的操作流程，明确职责边界，提升沟通效率，推动故障解决，提升故障处理效率。

在以上这些方面，一些正在崛起的新兴云厂商可能比老牌巨头走得更快更前，比如，移动云一直聚焦云服务稳定性领域涉及的关键技术，从混沌工程、全链路压测建设、可观测性平台建设、应用多活架构等多方面提升移动云稳定性。同时加速运维系统的“平台化”、“数据化”、“智能化”建设，持续加强移动云稳定性。在去年8月工信部召开的“云服务稳定安全运行应急演练专项活动”中，移动云荣获“十佳优秀报告”荣誉称号。

最后，张勇在就任阿里云总裁后又发了一封内部信，里面有一段话——

“唯有日积月累的客户信任，才可以让我们真正在市场中保持领先优势，才能让我们拥有持久的核心竞争力。任何故障的发生，对阿里是万分之一、百万分之一的概率，一旦发生在每个客户身上就是百分之百。我们必须急客户所急，想客户所想，既主动解决客户看得到的问题，更要把客户尚未感知到的风险防患于未然。”

望行业共勉吧。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉