0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

阿里云11.12故障原因及改进措施

OSC开源社区 来源:OSC开源社区 2023-11-17 11:34 次阅读

针对阿里云 11.12 的重大服务故障, 该公司发给客户的一份「官方故障报告」在网上被广泛流传。

影响范围

1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。

2、云产品控制台、管控 API 等功能受到影响。

时间

2023 年 11 月 12 日 17:39~19.20,故障时间为 1 小时 41 分。

问题概况

2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

17:39:阿里云云产品控制台访问及管控 API 调用出现异常。

17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。

18:01:工程师定位到根因。

18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

18:35:杭州等 Region 开始恢复正常。

19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

原因

访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

1、增加 AK 服务白名单生成结果的校验及告警拦截能力。

2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。

3、增加 AK 服务白名单的快速恢复能力。

4、加强云产品侧的联动恢复能力。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • API
    API
    +关注

    关注

    2

    文章

    1470

    浏览量

    61731
  • 阿里云
    +关注

    关注

    3

    文章

    929

    浏览量

    42919
  • RDS
    RDS
    +关注

    关注

    0

    文章

    101

    浏览量

    16800

原文标题:阿里云 11.12 故障原因曝光

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    充电电阻故障改进措施

    本文简述了深圳地铁1号线列车牵引逆变器充电电路原理,分析充电电阻故障原因,指出充电电阻设计上的问题,并提出改进措施
    发表于 12-23 10:44 1905次阅读
    充电电阻<b class='flag-5'>故障</b><b class='flag-5'>改进</b><b class='flag-5'>措施</b>

    阿里方式大汇总

    摘要:前不久,阿里发布了一款迁神器,即 阿里工具,使用该迁
    发表于 12-25 14:33

    无边界,阿里混合数据同步发布

    ,当业务中心出现故障时,快速将业务切换到容灾中心,秒级恢复业务。3、业务弹性扩展因为的灵活性、可扩展性及低成本,业务在大促等突发流量时,可以在阿里弹性扩容并支持部分业务流量。此时,
    发表于 04-02 15:35

    阿里免费使用及手册

    自己使用阿里服务器搭建的一个个人知识分享博客网站,基于网站搭建过程,分享一些经验。先对阿里服务器大体介绍下,后续有时间再分享技术方面的东西。希望对大家有用。这是目录,具体手册在附件
    发表于 05-10 21:17

    上拍客梨视频 基于阿里的技术实践分享

    摘要: 梨视频大部分的业务都选择了阿里,其中一个主要原因阿里提供基于钉钉群构建的24贴身技术支持,刘隽表示,这种服务模式可以更充分、高
    发表于 06-28 16:13

    阿里 APM 解决方案地图

    服务通过在服务器上安装插件,为用户提供服务器的系统监控服务。用户可以使用主机监控服务进行服务器资源使用情况的查询和排查故障时的监控数据查询。服务器无论是阿里服务器 ECS,还是其他
    发表于 07-05 16:54

    阿里容器服务如何使用

    阿里容器服务使用教程
    发表于 04-28 14:46

    基于MicroChip阿里IOT连接开发方案

    MicroChip的ATmega4808阿里IOT连接开发套件由功能强大的AVR 8-bit MCU ATmega4808、加密认证ICATECC608A及经过认证的ATWINC1510
    发表于 11-13 14:27

    阿里平台操作

    一、阿里平台操作  首先我们要知道BC26连接阿里是连接阿里上的某个设备,因此首先需要在
    发表于 08-03 06:43

    Fibocom 公有阿里 技术资料

    Fibocom 公有阿里 技术资料内容如下:1、阿里连接教程2、阿里
    发表于 01-05 15:03

    2m环形炉炉底故障原因分析及改进措施

    对衡阳钢管(集团)有限公司12m环形炉炉底磨炉墙的原因进行了分析,并采取了相应的改进措施,取得了较好的实用效果。
    发表于 01-16 15:39 11次下载

    浅谈波导充气机故障原因及应对措施

    以及可以快速有效的采取措施方法,保证充气机可以正常安全的恢复工作。以及下次出现问题的时候就知道有哪些原因和应对措施,避免手忙脚乱。那下面就给大家普及一下一些简单的故障检测方法以及应对
    发表于 03-09 14:45 1875次阅读

    阿里严重故障,全线产品受影响(已恢复)

    故障原因与某个底层服务组件有关,工程师正在紧急处理中 。 官方通告显示,阿里全线产品受影响。 18:20 更新,官方回应: 2023-11-
    的头像 发表于 11-13 00:26 857次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>严重<b class='flag-5'>故障</b>,全线产品受影响(已恢复)

    阿里全球宕机:从阿里故障看企业 IT 挑战

    2023 年 11 月 12 日晚,阿里遭遇了一场全球性故障,导致其全产品线全部崩溃,包括阿里盘、钉钉、淘宝、闲鱼等服务。这次
    的头像 发表于 11-13 00:28 378次阅读

    阿里崩了:企业未来该怎么选择厂商?

    出现大规模故障,也成为政企们热议的话题,大家关心的问题在于:公有到底还安全吗?是否还能继续上?未来应该采取哪些措施来保障稳定可靠? 不要动摇“上
    的头像 发表于 11-23 10:18 336次阅读
    <b class='flag-5'>阿里</b><b class='flag-5'>云</b>崩了:企业未来该怎么选择<b class='flag-5'>云</b>厂商?