0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云编排和实时分析以避免停机

星星科技指导员 来源:嵌入式计算设计 作者:Nati Shalom 2022-08-28 10:11 次阅读

根据博客“停机成本是多少”,尽管同期每个组织的停机小时数有所减少,但从 2010 年到 2012 年,网络停机费用平均增加了 65%。对这一趋势的一种可能解释是,大部分业务都是在线完成的,这使得停机时间对组织底线的整体影响更大。

随着转向云和基于软件即服务(基于 SaaS)的交付模型,面向客户的应用程序和整个 IT 基础设施都暴露于在线服务,停机时间的影响很容易让整个组织关闭。IT 部门正面临来自企业的巨大压力,要求其变得更加敏捷,而实现敏捷性的最简单途径之一就是迁移到基于云的环境。然而,这带来的问题是,迁移到更动态的云环境会增加失败的风险。大多数现有的 IT 管理系统都是为静态环境构建的,最多只能提供需要人工干预才能解决问题的警报监控。这种类型的系统已经变得不切实际,随着系统生成的数据量和事件数量增长到大多数人工操作员无法跟上的程度;结果是增加了人为错误。

Gartner 最近的一项研究预测,到 2015 年,“影响关键任务服务的 80% 的中断将由人员和流程问题引起,其中超过 50% 的中断将由更改、配置、版本集成和移交问题引起[2]。” 那么可以做些什么呢?解决方案是从静态监控转向完全反应式的系统,该系统可以在问题发生时识别和修复问题——无需人工干预。

解决方案

找出解决方案并不难。如果 80% 的停机时间是部署和恢复过程中的人为错误造成的,那么解决方案就是通过自动化消除这些错误。由于 IT 流程可能相当复杂且不易自动化,图 2 概述了涉及人工干预的 IT 流程示例。例如,这些可能包括将新开发的软件包投入生产、安装新功能或应用程序的监控、性能调整和故障排除等等。

图 2:需要人工干预的 IT 流程。

22

自动化应用程序部署和管理

通过用软件驱动的流程代替手动程序来实现应用程序部署和相应实践的自动化。基于云的基础设施是这些技术的主要推动者,因为它们提供了一种通过软件而不是人工操作员来控制整个数据中心的方法。图 3 展示了自动化端到端应用程序部署的主要组件,包括:

图 3:在反馈循环中自动化 IT 流程所需的组件

23

云基础设施——通过应用程序编程接口 (API) 提供对所有 IT 资源的软件驱动访问。

智能编排——相当于人类操作员的软件。

历史数据——存储以前的状态和事件,用于确定应用程序是否按预期运行,并根据实际活动调整系统阈值。历史数据也可用作发生故障时根本原因分析的来源。

实时分析——更新监控计数器,包括复杂的复合 CPU 延迟指标,并在事件超出特定阈值时触发警报。

这种架构的核心是编排。编排器为给定应用程序创建一个定义,该应用程序通过软件可读指令集运行以绘制应用程序蓝图。编排器还负责确保应用程序符合服务水平协议 (SLA),这可能是其最具挑战性的功能,因为这需要一定程度的人工智能AI)。

为了实现必要的 AI,必须建立一个反馈循环,该循环既能够识别应用程序是否按预期运行,如果不是,则采取纠正措施。反馈循环首先从应用程序收集实时反馈,然后实时处理它们以检测故障或容量问题。然而,确定给定警报是真实警报还是假警报通常涉及与历史数据的相关性。例如,如果预期负载增加,高 CPU 利用率并不总是表明存在问题。同时,低 CPU 使用率可能表明流量不足,这不一定表示应用程序的稳定性。实时和批量报告的分析通过将当前和历史数据报告回编排器来关闭循环,编排器反过来可以采取纠正措施。

自动化应用程序部署在行动

GigaSpaces 的Cloudify使用云应用程序的拓扑和编排规范 (TOSCA) 作为应用程序蓝图的标准框架是一个编排引擎,它定义了应用程序组件(节点)、它们的依赖关系,以及它们的指标和相关策略(例如,如何安装组件、处理故障或扩展事件)以配置流程自动化的基础网络。运行应用程序定义并加载 TOSCA 蓝图后,Cloudify 编排引擎将执行蓝图以生成必要的虚拟机 (VM) 和相应的网络资源(例如存储)。编排器然后安装应用程序的各种组件,根据它们在依赖链中的位置来组织它们。最后,应用程序监控作为插件集成,每个组件通过监控代理将指标发送回编排器。

之后,策略引擎使用复杂的事件服务来确定应用程序是否满足其 SLA,并在可能包括生成新 VM 或重新分配系统负载的违规情况下触发操作。图 4 说明了基于 TOSCA 的模型中的多层应用程序部署。

图 4: Cloudify 编排引擎采用基于 TOSCA 的蓝图框架来定义应用程序并使其流程自动化。

24

基于云的自动化——实时

由于企业的日常运营不断被网络基础设施所吸收,传统的 IT 流程将无法促进事件和数据的大量增加。此外,在流程管理中添加人为因素可能会首次在不断发展的 IT 环境中引入挫折而不是收益。在正常运行时间对任务至关重要的情况下,基于云的自动化可以有效地减少停机时间,同时让 IT 经理在最需要他们之前腾出时间。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2542

    文章

    50078

    浏览量

    748887
  • 引擎
    +关注

    关注

    1

    文章

    355

    浏览量

    22476
收藏 人收藏

    评论

    相关推荐

    有什么办法可以避免I2S CLOCK变化时,等Clock再次稳定,TAS5825M能自动恢复?

    当输入I2S CLOCK发生变化,会造成TAS5825M 不工作.Clock再次稳定,TAS5825M也不能恢复正常.请问有什么办法可以避免I2S CLOCK变化时,等Clock再次稳定,TAS5825M能自动恢复?
    发表于 09-29 06:24

    LMP7717的IV转换,瞬时分析结果怎么达到14v多?

    IV转换,瞬时分析结果怎么达到14v多?电流源的参数如下图: 谢谢知道的人帮我解答下。
    发表于 08-30 06:58

    如何理解计算?

    智能家居、智能工厂和智慧城市等应用。通过平台,用户可以实时监控和控制物联网设备,并对数据进行分析和应用。 以上应用只是计算的一部分,随着技术和创新的发展,
    发表于 08-16 17:02

    如何正确选用SCR架构TVS以避免闩锁效应

    AMAZINGIC晶焱科技如何正确选用SCR架构TVS以避免闩锁效应
    的头像 发表于 08-12 18:31 814次阅读
    如何正确选用SCR架构TVS<b class='flag-5'>以避免</b>闩锁效应

    纯血鸿蒙开发教程-耗时分析器Time Profiler使用指导

    服务过程中,如果遇到卡顿、加载耗时等性能问题,开发者通常会关注相关函数执行的耗时情况。Profiler提供的Time场景分析任务,可在应用/服务运行时,展示热点区域内基于CPU和进程耗时分析的调用栈
    发表于 05-11 14:13

    stm8s003停机后,外部中断有时候会无法退出停机状态,为什么?

    stm8s003,进入停机,外部中断退出停机,但是经常会触发中断之后却没退出停机状态,再触发才行,这是什么问题。我用示波器看过外部中断的波形,确实有触发波形了,但是却没有退出停机状态。
    发表于 05-11 08:29

    时分复用的特点 n路时分复用系统的示意图

    时分复用TDM是采用同一物理连接的不同时段来传输不同的信号,也能达到多路传输的目的。时分多路复用以时间作为信号分割的参量,故必须使各路信号在时间轴上互不重叠。
    的头像 发表于 05-01 16:51 1048次阅读
    <b class='flag-5'>时分</b>复用的特点 n路<b class='flag-5'>时分</b>复用系统的示意图

    曝台积电和联电部分机台停机 曝台积电二季度亏6000万美元

    台积电作为台湾电子产业的龙头,虽然地震造成了部分石英管材的破裂和在线晶圆的损坏,但公司迅速采取行动,暂停了部分机台的运转,进行了停机检查,以避免任何可能的偏移。
    的头像 发表于 04-03 16:53 826次阅读

    优雅停机是什么?SpringBoot+Nacos+k8s实现优雅停机

    优雅停机是什么?网上说的优雅下线、无损下线,都是一个意思。
    的头像 发表于 02-20 10:00 1525次阅读
    优雅<b class='flag-5'>停机</b>是什么?SpringBoot+Nacos+k8s实现优雅<b class='flag-5'>停机</b>

    什么是时分复用TDM?时分复用类型 时分复用优劣势

    什么是时分复用TDM?时分复用类型 时分复用优劣势  时分复用TDM是一种常见的多路复用技术,用于将多个低速信号合并成一个高速信号在传输线路上进行传输。在
    的头像 发表于 01-16 16:03 1650次阅读

    揭秘:实时渲染、离线渲染、渲染和混合渲染的区别

    渲染,就是将3D模型转换成2D图像,并最终呈现在屏幕上的过程。常见的渲染类型有以下几种:实时渲染离线渲染渲染混合渲染它们中间有重叠交叉,也有技术区别。本文尝试用浅显易懂的方式来进行解释,希望大家
    的头像 发表于 12-26 08:27 636次阅读
    揭秘:<b class='flag-5'>实时</b>渲染、离线渲染、<b class='flag-5'>云</b>渲染和混合渲染的区别

    马达保护器装置电源掉电停机的原因分析处理

           介绍了一起因直流电源接线松动导致所带整段马达保护器装置停电从而造成电机大面积停机的事故,分析了大面积电机停机的直接原因和间接原因,针对存在的问题提出了整改措施和方案,对马达保护器
    的头像 发表于 12-25 16:04 898次阅读
    马达保护器装置电源掉电<b class='flag-5'>停机</b>的原因<b class='flag-5'>分析</b>处理

    晶科能源SunGiga工商业储能一体机 高度集成 安装无忧

    SunGiga 智能监控保障电池系统安全,更配备平台,通过WAF、防火墙、堡垒机等安全措施保障数据及系统安全。连接晶科储能大数据云平台,专属系统可实时采集储能系统的运行数据,实现
    的头像 发表于 12-07 10:25 672次阅读

    IAR环境如何将数学函式库编排到sLib保护区

    IAR环境如何将数学函式库编排到sLib保护区在IAR 环境下,如何将数学函式库编排到SLIB 保护区?
    发表于 10-20 07:03

    语音识别技术中的实时处理与计算

    语音识别技术是一种将人类语音转化为计算机可理解数据的技术。随着人工智能和计算技术的不断发展,语音识别技术正朝着实时处理和计算方向发展。本文将探讨语音识别技术中的实时处理与
    的头像 发表于 10-19 15:51 538次阅读