0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云编排和实时分析以避免停机

星星科技指导员 来源:嵌入式计算设计 作者:Nati Shalom 2022-08-28 10:11 次阅读

根据博客“停机成本是多少”,尽管同期每个组织的停机小时数有所减少,但从 2010 年到 2012 年,网络停机费用平均增加了 65%。对这一趋势的一种可能解释是,大部分业务都是在线完成的,这使得停机时间对组织底线的整体影响更大。

随着转向云和基于软件即服务(基于 SaaS)的交付模型,面向客户的应用程序和整个 IT 基础设施都暴露于在线服务,停机时间的影响很容易让整个组织关闭。IT 部门正面临来自企业的巨大压力,要求其变得更加敏捷,而实现敏捷性的最简单途径之一就是迁移到基于云的环境。然而,这带来的问题是,迁移到更动态的云环境会增加失败的风险。大多数现有的 IT 管理系统都是为静态环境构建的,最多只能提供需要人工干预才能解决问题的警报监控。这种类型的系统已经变得不切实际,随着系统生成的数据量和事件数量增长到大多数人工操作员无法跟上的程度;结果是增加了人为错误。

Gartner 最近的一项研究预测,到 2015 年,“影响关键任务服务的 80% 的中断将由人员和流程问题引起,其中超过 50% 的中断将由更改、配置、版本集成和移交问题引起[2]。” 那么可以做些什么呢?解决方案是从静态监控转向完全反应式的系统,该系统可以在问题发生时识别和修复问题——无需人工干预。

解决方案

找出解决方案并不难。如果 80% 的停机时间是部署和恢复过程中的人为错误造成的,那么解决方案就是通过自动化消除这些错误。由于 IT 流程可能相当复杂且不易自动化,图 2 概述了涉及人工干预的 IT 流程示例。例如,这些可能包括将新开发的软件包投入生产、安装新功能或应用程序的监控、性能调整和故障排除等等。

图 2:需要人工干预的 IT 流程。

22

自动化应用程序部署和管理

通过用软件驱动的流程代替手动程序来实现应用程序部署和相应实践的自动化。基于云的基础设施是这些技术的主要推动者,因为它们提供了一种通过软件而不是人工操作员来控制整个数据中心的方法。图 3 展示了自动化端到端应用程序部署的主要组件,包括:

图 3:在反馈循环中自动化 IT 流程所需的组件

23

云基础设施——通过应用程序编程接口 (API) 提供对所有 IT 资源的软件驱动访问。

智能编排——相当于人类操作员的软件。

历史数据——存储以前的状态和事件,用于确定应用程序是否按预期运行,并根据实际活动调整系统阈值。历史数据也可用作发生故障时根本原因分析的来源。

实时分析——更新监控计数器,包括复杂的复合 CPU 延迟指标,并在事件超出特定阈值时触发警报。

这种架构的核心是编排。编排器为给定应用程序创建一个定义,该应用程序通过软件可读指令集运行以绘制应用程序蓝图。编排器还负责确保应用程序符合服务水平协议 (SLA),这可能是其最具挑战性的功能,因为这需要一定程度的人工智能AI)。

为了实现必要的 AI,必须建立一个反馈循环,该循环既能够识别应用程序是否按预期运行,如果不是,则采取纠正措施。反馈循环首先从应用程序收集实时反馈,然后实时处理它们以检测故障或容量问题。然而,确定给定警报是真实警报还是假警报通常涉及与历史数据的相关性。例如,如果预期负载增加,高 CPU 利用率并不总是表明存在问题。同时,低 CPU 使用率可能表明流量不足,这不一定表示应用程序的稳定性。实时和批量报告的分析通过将当前和历史数据报告回编排器来关闭循环,编排器反过来可以采取纠正措施。

自动化应用程序部署在行动

GigaSpaces 的Cloudify使用云应用程序的拓扑和编排规范 (TOSCA) 作为应用程序蓝图的标准框架是一个编排引擎,它定义了应用程序组件(节点)、它们的依赖关系,以及它们的指标和相关策略(例如,如何安装组件、处理故障或扩展事件)以配置流程自动化的基础网络。运行应用程序定义并加载 TOSCA 蓝图后,Cloudify 编排引擎将执行蓝图以生成必要的虚拟机 (VM) 和相应的网络资源(例如存储)。编排器然后安装应用程序的各种组件,根据它们在依赖链中的位置来组织它们。最后,应用程序监控作为插件集成,每个组件通过监控代理将指标发送回编排器。

之后,策略引擎使用复杂的事件服务来确定应用程序是否满足其 SLA,并在可能包括生成新 VM 或重新分配系统负载的违规情况下触发操作。图 4 说明了基于 TOSCA 的模型中的多层应用程序部署。

图 4: Cloudify 编排引擎采用基于 TOSCA 的蓝图框架来定义应用程序并使其流程自动化。

24

基于云的自动化——实时

由于企业的日常运营不断被网络基础设施所吸收,传统的 IT 流程将无法促进事件和数据的大量增加。此外,在流程管理中添加人为因素可能会首次在不断发展的 IT 环境中引入挫折而不是收益。在正常运行时间对任务至关重要的情况下,基于云的自动化可以有效地减少停机时间,同时让 IT 经理在最需要他们之前腾出时间。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2551

    文章

    51211

    浏览量

    754539
  • 引擎
    +关注

    关注

    1

    文章

    361

    浏览量

    22588
收藏 人收藏

    评论

    相关推荐

    在华为 FlexusX 实例上实现 Docker 容器的实时监控与可视化分析

    前言 华为 Flexus X,以顶尖算力与智能调度,引领 Docker 容器管理新风尚。828 企业上节之际,Flexus X 携手前沿技术,实现容器运行的实时监控与数据可视化,让管理变得直观
    的头像 发表于 01-02 13:42 61次阅读
    在华为<b class='flag-5'>云</b> FlexusX 实例上实现 Docker 容器的<b class='flag-5'>实时</b>监控与可视化<b class='flag-5'>分析</b>

    康谋分享 | 确保AD/ADAS系统的安全:避免数据泛滥的关键!

    如何实现数据的高效管理、解读和正确分析以避免数据泛滥的不利影响?掌握好“指标与算法”和“全面可视化分析工具”两大关键要素,助力AD/ADAS系统开发、验证和改进过程!
    的头像 发表于 11-13 09:54 3173次阅读
    康谋分享 | 确保AD/ADAS系统的安全:<b class='flag-5'>避免</b>数据泛滥的关键!

    ECRS工时分析软件如何实施精益生产? 

    益生产的概念是由麻省理工学院(MIT)发起的视与视ECRS工时分析软件国际汽车研究小组(IMVP)。用了5年的时间全面总结了90多家丰田汽车公司的生产方法。精益生产是相对于批量生产,它关注时间效率
    发表于 10-30 10:17

    计算平台的最佳实践

    计算平台的最佳实践涉及多个方面,以确保高效、安全、可扩展和成本优化的环境。以下是一些关键的最佳实践: 一、成本优化 详细分析使用情况
    的头像 发表于 10-24 09:17 378次阅读

    有什么办法可以避免I2S CLOCK变化时,等Clock再次稳定,TAS5825M能自动恢复?

    当输入I2S CLOCK发生变化,会造成TAS5825M 不工作.Clock再次稳定,TAS5825M也不能恢复正常.请问有什么办法可以避免I2S CLOCK变化时,等Clock再次稳定,TAS5825M能自动恢复?
    发表于 09-29 06:24

    LMP7717的IV转换,瞬时分析结果怎么达到14v多?

    IV转换,瞬时分析结果怎么达到14v多?电流源的参数如下图: 谢谢知道的人帮我解答下。
    发表于 08-30 06:58

    如何理解计算?

    智能家居、智能工厂和智慧城市等应用。通过平台,用户可以实时监控和控制物联网设备,并对数据进行分析和应用。 以上应用只是计算的一部分,随着技术和创新的发展,
    发表于 08-16 17:02

    如何正确选用SCR架构TVS以避免闩锁效应

    AMAZINGIC晶焱科技如何正确选用SCR架构TVS以避免闩锁效应
    的头像 发表于 08-12 18:31 1143次阅读
    如何正确选用SCR架构TVS<b class='flag-5'>以避免</b>闩锁效应

    纯血鸿蒙开发教程-耗时分析器Time Profiler使用指导

    服务过程中,如果遇到卡顿、加载耗时等性能问题,开发者通常会关注相关函数执行的耗时情况。Profiler提供的Time场景分析任务,可在应用/服务运行时,展示热点区域内基于CPU和进程耗时分析的调用栈
    发表于 05-11 14:13

    stm8s003停机后,外部中断有时候会无法退出停机状态,为什么?

    stm8s003,进入停机,外部中断退出停机,但是经常会触发中断之后却没退出停机状态,再触发才行,这是什么问题。我用示波器看过外部中断的波形,确实有触发波形了,但是却没有退出停机状态。
    发表于 05-11 08:29

    时分复用的特点 n路时分复用系统的示意图

    时分复用TDM是采用同一物理连接的不同时段来传输不同的信号,也能达到多路传输的目的。时分多路复用以时间作为信号分割的参量,故必须使各路信号在时间轴上互不重叠。
    的头像 发表于 05-01 16:51 1455次阅读
    <b class='flag-5'>时分</b>复用的特点 n路<b class='flag-5'>时分</b>复用系统的示意图

    曝台积电和联电部分机台停机 曝台积电二季度亏6000万美元

    台积电作为台湾电子产业的龙头,虽然地震造成了部分石英管材的破裂和在线晶圆的损坏,但公司迅速采取行动,暂停了部分机台的运转,进行了停机检查,以避免任何可能的偏移。
    的头像 发表于 04-03 16:53 897次阅读

    优雅停机是什么?SpringBoot+Nacos+k8s实现优雅停机

    优雅停机是什么?网上说的优雅下线、无损下线,都是一个意思。
    的头像 发表于 02-20 10:00 2116次阅读
    优雅<b class='flag-5'>停机</b>是什么?SpringBoot+Nacos+k8s实现优雅<b class='flag-5'>停机</b>

    什么是时分双工和频分双工?各有什么优缺点?

    什么是时分双工和频分双工?各有什么优缺点? 时分双工和频分双工是在通信中使用的两种常见的双工通信技术。它们分别使用时间和频率来实现同时双向通信,每种技术都有其独特的优缺点。以下是关于时分双工和频分
    的头像 发表于 02-01 16:57 4010次阅读

    什么是时分复用TDM?时分复用类型 时分复用优劣势

    什么是时分复用TDM?时分复用类型 时分复用优劣势  时分复用TDM是一种常见的多路复用技术,用于将多个低速信号合并成一个高速信号在传输线路上进行传输。在
    的头像 发表于 01-16 16:03 2835次阅读