0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云出现重大技术故障损失过亿,阿里云故障真正原因是什么?

马哥Linux运维 来源:未知 作者:易水寒 2018-07-17 15:16 次阅读

昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。

阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。

6月27日下午,阿里云出现重大技术故障,故障于北京时间2018年6月27日,16:21左右开始,16:50分开始陆续恢复。官方给出的故障时间大概持续30分钟,陆续恢复时间有一个小时多。

在6月27日凌晨时分,阿里云给了官方说明,最后官方给出的说明是:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”引发了大量吐槽。

对于此故障的原因,网上传的各种版本都有,传的最多的是以下2个版本:

网上流传故障原因版本一

网上流传故障原因版本二

小编邀请原美团点评运维架构师&马哥教育联合创始人张sir对本次故障解读:

“至于实习生误删登陆服务之说,应该是不存在的,一方面,大型互联网公司尤其是阿里云这样的公司,对工程师权限有着极为严格的控制,因为阿里云数十万台服务器,支撑了全国各行各业千亿以上规模的线上业务,不可能让实习生不熟悉的情况下,给予过高的管理权限。这是极其不专业的做法"

”对于版本二的说法,说的比较含糊和笼统,我通过内部了解到原因:”

"这个说法跟阿里云官方通告是比较符合的,本次故障的严重程度是非常高的,故障级别定义在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。"

"对于企业来说,上线都是开发-测试-上线大致都是以下这样的流程,通常开发会开发出来程序,然后交给测试工程师,测试工程师测试完成后,后提交给运维工程师进行线上服务配置以及业务上线。"

“本次故障,阿里官方说明:工程师团队,在上线一次自动化运维新功能的时候,执行了一项变更验证操作,这一项功能在测试环境验证中未出现问题,上线生产环境中,触发了一个未知的bug。这个bug后来通过阿里的同学证实:具体原因是一个核心的应用在拉VIP列表的时候,返回了空列表,这就会导致上千VIP被禁用了。VIP = Virtual IP Address,虚拟IP地址,主要作用为集群的负载均衡的入口地址,可通过一个VIP的地址,实现一组业务的访问,通常也叫集群负载均衡技术。VIP是集群业务的入口,如果数千个VIP被禁用了,可能后端上万台的服务、应用、数据库等将直接无法访问,本次故障盲点,是测试通过了,在生产环境触发了一个未知bug,导致核心应用在拉取VIP列表时,为空了,导致内部的上千台负载均衡不可用,从而后端的应用也不可达。”

"如图所示,对于大型互联网公司,运维技术架构都是多层机构。在内部负载均衡上配置的VIP如果不可达的话,后端的service层和数据库等内容,都是不可达的,这也是为什么故障的时候,页面能打开,但是报错为502故障,502错误一般常为后端服务器不可用,这也说明了故障的根源所在。阿里的运维团队故障响应还是比较给力的,数千个VIP配置错误,在半小时内从发现,到定位,到故障排除,以及解决,还是挺快的。”

“在一个庞大复杂的架构体系中,会涉及到成千上万的配置以及几十种技术的应用,有时候可能因为一条配置的错误,会导致整个服务崩盘。而出故障时,一位优秀的运维工程师,可为公司挽回巨大损失。运维工程师目前已经是各家互联网公司必不可少的重要岗位,是要求有极高的技术能力和心理素质(当出现故障时,耽误一分钟损失上百万的时候,那种压力是常人无法理解的),所以这也是,为什么业内优秀的运维工程师是比较稀缺的。一个优秀的运维工程师或者云计算工程师,是需要不断的提升和学习,因为公司的业务需要不断的完善架构体系,保障服务正常运行,以及服务性能和工作效率不断的优化和改进。”

阿里云对于本次故障,还是非常坦诚的:

"对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。"

此次阿里云重大故障,网友们纷纷讨论,运维都要背锅啦。其实,运维工程师这个群体,比你想象的要厉害,如果不是他们为互联网的业务保驾护航,可能故障远不止此。所以,对于错误,我们应该包容,错误是成长的必经之路,更何况,人非圣贤孰能无过?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11105

    浏览量

    103013
  • 阿里云
    +关注

    关注

    3

    文章

    940

    浏览量

    42964
  • 运维
    +关注

    关注

    1

    文章

    252

    浏览量

    7544

原文标题:1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

文章出处:【微信号:magedu-Linux,微信公众号:马哥Linux运维】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    学习阿里架构选择哪家培训机构好?

    认可的阿里技术证书,并可对接阿里人才库,全国5000多家企业任您选择,高薪职位唾手可得!  老男孩教育
    发表于 12-20 15:31

    阿里1682亿背后的协同研发——效公共正式商业化

    提供了单个工作任务的多种操作,也支持整个项目和项目集合管理,使得用户可以更加便捷跟进工作。通过移动效进行项目管理阿里巴巴资深技术专家叶渡表示:“研发效能已经成为软件企业发展非常核心的竞争力。
    发表于 12-25 12:02

    阿里方式大汇总

    摘要:前不久,阿里发布了一款迁神器,即 阿里工具,使用该迁
    发表于 12-25 14:33

    无边界,阿里混合数据同步发布

    ,当业务中心出现故障时,快速将业务切换到容灾中心,秒级恢复业务。3、业务弹性扩展因为的灵活性、可扩展性及低成本,业务在大促等突发流量时,可以在阿里
    发表于 04-02 15:35

    阿里全球首次互联网8K直播背后的技术解读

    ,及时发现卡顿原因并解决。阿里巴巴杭州西溪园区,距离深圳云栖大会的会场1300公里,如何保证这么远距离的大数据量稳定传输,又是一个难题。如图所示,通过专线,把直播现场(阿里巴巴杭州西溪园区)连接到
    发表于 04-08 10:55

    阿里财报:计算年度营收133亿,季度营收连续12个季度翻番

    摘要: 北京时间5月4日晚间,阿里巴巴集团公布2018财年第四季度和全年财报,该季度内(2018年1月至3月底)阿里营收43.85亿元,同比增长103%;2018财年(2017年4月
    发表于 05-07 14:50

    阿里免费使用及手册

    自己使用阿里服务器搭建的一个个人知识分享博客网站,基于网站搭建过程,分享一些经验。先对阿里服务器大体介绍下,后续有时间再分享技术方面的东
    发表于 05-10 21:17

    上拍客梨视频 基于阿里技术实践分享

    摘要: 梨视频大部分的业务都选择了阿里,其中一个主要原因是阿里提供基于钉钉群构建的24贴身技术
    发表于 06-28 16:13

    阿里 APM 解决方案地图

    ,取决于用户是否进一步使用容器技术来优化开发和运维。应用还会直接依赖各类的PaaS/SaaS服务,如OSS,OTS, MQ, RDS等,对应用提供响应平台服务,简化应用的运维成本。阿里
    发表于 07-05 16:54

    阿里平台操作

    一、阿里平台操作  首先我们要知道BC26连接阿里是连接阿里上的某个设备,因此首先需要在
    发表于 08-03 06:43

    Fibocom 公有阿里 技术资料

    Fibocom 公有阿里 技术资料内容如下:1、阿里连接教程2、
    发表于 01-05 15:03

    阿里严重故障,全线产品受影响(已恢复)

    故障原因与某个底层服务组件有关,工程师正在紧急处理中 。 官方通告显示,阿里全线产品受影响。 18:20 更新,官方回应: 2023-11-
    的头像 发表于 11-13 00:26 876次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>严重<b class='flag-5'>故障</b>,全线产品受影响(已恢复)

    阿里故障是一次意外还是一次危机?

    和影响。 2023 年 4 月 8 日,阿里发生了一次史诗级的故障,导致多个区域的服务器、数据库、存储、网络等服务出现不可用或性能下降的
    的头像 发表于 11-13 00:28 282次阅读

    阿里全球宕机:从阿里故障看企业 IT 挑战

    2023 年 11 月 12 日晚,阿里遭遇了一场全球性故障,导致其全产品线全部崩溃,包括阿里盘、钉钉、淘宝、闲鱼等服务。这次
    的头像 发表于 11-13 00:28 397次阅读

    阿里崩了:企业未来该怎么选择厂商?

    出现大规模故障,也成为政企们热议的话题,大家关心的问题在于:公有到底还安全吗?是否还能继续上?未来应该采取哪些措施来保障稳定可靠? 不要动摇“上
    的头像 发表于 11-23 10:18 352次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企业未来该怎么选择<b class='flag-5'>云</b>厂商?