0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

托管数据中心发生的故障和解决措施

如意 来源:企业网D1Net 作者:Stephen J. Bigelow 2020-12-16 15:37 次阅读

托管提供商主要提供数据中心的空间、电源、冷却、物理安全性,但托管服务也面临数据中心停机期间响应速度较慢的潜在缺点。采用托管服务的组织必须仔细规划重要数据的存储位置,并遵循服务级别协议,以最大程度地减少托管数据中心服务中断的影响。

当然,组织可以自己建设和运营内部部署数据中心,拥有、建设和维护基础设施和设备,雇佣员工,实施政策和运行应用程序,并设定应对任何中断所需的优先级。当遇到问题时,组织领导者知道让谁处理,并且员工可以专注于组织的利益。

作为托管服务商客户的组织来说,这些控制权交给托管服务提供商,他们负责故障排除并与客户保持联系。但是托管服务提供商通常是为了自己的商业利益而运营的企业,有时并不能满足托管客户的需求。

是什么导致托管数据中心停机?

托管服务提供商以远程管理的数据中心为核心,通常可以将数据中心的停机追溯到许多可能影响内部部署数据中心面临的相同问题。停机的原因一般分为四类:电源、人员、灾难、连接。

(1) 电源。托管服务提供商通常在其数据中心内实现更大的弹性,例如备用电源系统。其备用电源包括为服务器和机架设备供电的不间断电源(UPS),以及在市电中断时可以为数据中心设施供电的工业级备用发电机。但是,UPS故障、发电机启动或维护不足以及备用电源系统的其他问题,可能会在市电停电时导致托管客户的业务中断。

(2) 人员。人为错误是造成数据中心停机的主要原因。例如配置错误的路由器、服务器、身份验证系统以及硬件和软件基础设施其他错误可能导致客户无法访问系统。内部和外部攻击或其他恶意活动(如拒绝服务攻击)也可以干扰或破坏客户所托管的工作负载。

(3) 灾难。客户希望托管数据中心设施具有更强的弹性和更高的可靠性,因此通常希望远离自然灾难(飓风、洪水、地震等)和人为灾难(火灾、车祸和战争)。虽然谨慎的托管措施应该可以减少这种风险,但不可能完全避免和消除,而不可预见的灾难会使托管数据中心设施瘫痪或毁坏。

(4) 连接。托管服务本质上是远程实施的,而WAN或互联网连接对于托管服务提供商至关重要。大多数托管服务提供商都允许客户使用一个或多个可用电信提供商的服务。电信基础设施也不完善,也不是100%可靠的,这可能会导致使用某些电信服务的客户连接中断。在这种情况下,必须由电信提供商(而不是托管服务提供商)来恢复服务,但是对这些托管客户的影响可能像发生火灾或洪水一样严重。

对内部和外部场所进行故障排除

作为托管数据中心客户的组织在解决托管数据中心发生的故障尤其具有挑战性,因为解决问题的过程首先取决于识别/确定问题,然后确定托管数据中心提供商(或客户)是否对故障和纠正措施负责。

传统托管数据中心

例如,假设客户的工作负载在传统托管数据心设施中运行,并且托管服务提供商只提供空间、电源、制冷和其他服务。如果数据中心设施出现故障(例如电源故障),则客户将依赖托管提供商提供的电力服务,并且托管服务提供商将根据现行服务等级协议(SLA)的条款负责查找和纠正电源问题。而根据问题的严重程度,修复过程可能需要数小时甚至数天的时间。

但是,客户仍将负责部署到托管服务提供商的所有服务器、存储、网络和其他业务设备。服务器、存储子系统、网络交换机故障,甚至是应用程序故障(软件错误)可能是造成停机的原因。客户将采用系统管理工具监视和报告硬件和软件的状态,他们有责任找到并解决问题,可能是通过重新启动服务器、更换服务器或采用其他潜在的修复方法。

如果客户确实要负责修复,他们将面临完成工作的挑战。对出现故障的应用程序进行修复和排除可能需要实际操作,这可能需要数小时来部署人员和执行修复所涉及的实际工作。在某些情况下,托管服务提供商的员工将会提供帮助,但需要客户额外付费。

托管或托管主机

在托管数据中心或托管方案中,托管服务提供商将提供数据中心空间、服务器、存储设备、网络以及其他基础设施,而客户可以从托管服务提供商那里租用。但是,托管服务提供商对整个基础设施负有全部责任,客户不用接触或关注托管服务提供商的基础设施。如果托管数据中心设施或计算资源发生故障,则托管服务提供商必须处理并发布停机通知,然后按照服务等级协议(SLA)中规定的条款对故障进行故障排除和补救。在这种情况下,客户通常会通过已建立的支持渠道(例如电子邮件、电话或门户网站)将故障告知托管服务提供商(例如某个应用程序无法正常工作)。

如果问题实际上出在客户的应用程序而不是托管服务提供商的基础设施(即托管数据中心设施正常运行,但是客户的应用程序遭受崩溃或其他异常),那么托管服务提供商就没有更多的义务来确定客户的应用程序是否正常工作。客户必须具有适当的监视以跟踪应用程序运行状况或了解应用程序性能。当应用程序出现问题时,客户的IT团队可以选择远程操作重新启动应用程序,或者要求托管服务提供商帮助采取纠正措施。

托管数据中心支持的类型

当出现问题时,组织必须找到快速且经济高效的方法来解决问题,同时保持行业标准或法规遵从性所要求的数据完整性和工作负载安全性。客户可以使用四种类型的支持:

(1) 工作人员。当客户将自己的设备部署在托管设施中时,可能会自己雇佣IT员工管理和维护,而不是托管服务提供商。这有助于确保IT任务的执行符合客户的最佳利益,但是其员工到路途遥远的托管数据中心工作可能既耗时又会增加成本。

(2) 远程控制。客户可以聘请托管服务提供商的员工协助开展各种IT任务。这些任务可能包括物理设备故障排除、更换、配置。通常根据突发事件或请求远程操作,并且其费用将添加到客户的每月账单中。

(3) 远程管理。现代IT系统管理工具擅长通过网络访问硬件设备以执行常见的管理任务。这些工具通常可以重新启动服务器、重新启动应用程序、迁移虚拟机以及备份和恢复数据。远程管理在管理日常任务时非常有效,无需客户派遣员工在托管数据中心工作。

(4) 托管服务。托管服务提供商通常提供客户可以参与的一系列服务,例如托管电子邮件。某些服务费用可能会添加到每月的托管费用中,而某些服务(例如备份)可能会带来额外的费用。但是,托管服务提供商通常可以参与添加新服务,更改现有服务或减少或取消不需要的服务。

减轻数据中心托管设置中的不确定性

托管服务提供商可能会给客户带来更多不确定性和复杂性。在偏远地区运营的托管数据中心设施可能会受到地缘政治不确定性和安全性问题的影响。托管服务提供商管理成本的愿望可能会削减支持人员数量,从而可能降低其响应能力。托管服务提供商的合并和请求可能会影响其日常运营。

客户可以通过谨慎的应急计划和大量监控措施来缓解这些托管问题。常见步骤包括:

工作负载适用性。必须评估每个应用程序在托管数据中心中的适用性。由于法规遵从性、安全性、性能或其他问题,并非所有应用程序都适合托管。有些工作负载应该保留在内部部署数据中心。

遣返。如果托管服务失败或证明托管不适合应用程序时,则迁移到托管数据中心的每个工作负载都应采取遣返措施,可以在组织的内部部署数据中心恢复应用程序。

备份和灾难恢复。托管工作负载并不保证可用性。重要的工作负载可能需要额外的托管服务投资,以建立备份和灾难恢复框架,以确保应用程序在托管服务中运行时的可用性。托管服务提供商在默认情况下不提供此类服务。

详细监控。使用监视工具(例如应用程序性能监视)和用于重要工作负载的工具来跟踪应用程序的运行状况和性能,以及托管服务提供商及其资源的可用性。了解托管服务提供商的服务等级协议(SLA),并使用监控结果来验证托管服务提供商是否遵守服务等级协议(SLA)。

寻求帮助。托管服务提供商将提供各种帮助台以寻求支持。客户应该清楚了解可用的帮助,如何请求帮助,以及在必要时如何采取行动并及时采取纠正措施。

归根结底,托管服务提供商是客户的业务合作伙伴(而不是员工),并且托管服务提供商提供的资源和服务不能被认为是理所当然的。客户有责任管理自己在托管数据中心环境中运行的工作负载,并且需要能够与托管服务提供商协作以维护每个工作负载的可用性和性能。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电源
    +关注

    关注

    184

    文章

    17455

    浏览量

    248999
  • 服务器
    +关注

    关注

    12

    文章

    8921

    浏览量

    85029
  • 数据中心
    +关注

    关注

    16

    文章

    4613

    浏览量

    71866
收藏 人收藏

    评论

    相关推荐

    数据中心子系统的组成

    影响的墙壁、地板和天花板。在考虑在何地建设、如何建设该结构时,需要采取适当的预防措施。因为一旦数据中心建成后,要想修改极其困难,所以,必须认真规划,准确预测所需数据中心空间的容量。此外,该物理结构一般要使
    发表于 11-11 10:16

    澳大利亚数据中心最新动态一览

    《企业网D1Net》12月9日讯(上海)澳大利亚证券交易所(ASX)表示,总部位于日本的KVH公司正在悉尼的ASX新数据中心托管中心设立汇集点(POP),以实现超低延迟的网络。 新的ASX澳大利亚
    发表于 12-13 15:11

    轻松玩转数据中心可靠性的几个概念

    (MeanTime To Repair,平均故障维修时间)是随机变量恢复时间的期望值,它包括确认失效发生所必需的时间以及维护所需要的时间。MTTR数值越小,说明数据中心故障恢复处理能力
    发表于 04-26 14:43

    你对托管云有误解吗?

    ,他们最。因此,数据中心的整体效率和性能更高。该定义并不一定意味着云数据中心必须使用其资源托管多个企业,或以任何形式出售/出租其资源。基础架构即服务(IaaS):在IaaS中,云数据中心
    发表于 08-10 15:01

    易天重点解析监控系统在数据中心机房的重要性

    发生的风险及时发现,当然要做到所有的故障都可能提前预知、发现,是非常困难的。   3、烟雾温湿监控系统  数据中心机房一样怕火,一旦发生火灾对于
    发表于 10-09 15:00

    数据中心是什么

    数据中心是什么:数据中心是全球协作的特定设备网络,用来在因特网络基础设施上传递、加速、展示、计算、存储数据信息。数据中心大部分电子元件都是由低直流电源驱动运行的。
    发表于 07-12 07:10

    如何去提高数据中心的运营效率呢

    现如今,尽管IT业界的各种新兴技术可能正发生着各种突飞猛进的快速变化,但每家数据中心仍然需要依赖电力资源的消耗来维持其运行能力。故而,数据中心运营商们仍然需要通过更新电源使用、冷却和电气设计方案,来
    发表于 09-09 06:14

    什么是数据中心

    数据中心是企业用来容纳其关键业务应用程序和信息的物理设施。随着它们的发展,重要的是要长期考虑如何保持它们的可靠性和安全性。什么是数据中心数据中心通常被称为单个事物,但实际上它们由许多技...
    发表于 09-15 06:46

    数据中心ups电源的常见故障有哪些

    UPS作为数据中心不可缺少的供电保护系统,其应用领域是越来越广泛。但长期以来,由于部分使用人员不了解UPS的组成、原理、特点,不注重对UPS的管理维护,使其使用寿命缩短,故障率增高,其结果...
    发表于 01-03 07:12

    数据中心的光纤跳线故障与排除

    光纤网络在生活中有很大的用途。一旦发生故障,将会造成很大的麻烦。如何消除数据中心专用光纤跳线的常见故障故障排除方法变得越来越重要。
    的头像 发表于 10-27 12:13 3748次阅读

    现代混合云服务对未来托管数据中心的意义

    与以前的版本不同,新的混合云框架更易于部署,并且消除了“云计算vs托管数据中心”的二分法。
    的头像 发表于 08-21 11:00 1810次阅读

    成功远程托管数据中心的五种方式

    组织采用托管数据中心服务可以显著降低成本,并进行优化,但他们往往忽略了最重要的一个好处:远程操作支持服务。
    的头像 发表于 12-09 16:10 2175次阅读

    零售托管数据中心 VS 批发数据中心

    批发数据中心可以提供更多的控制权,而零售托管数据中心可以提供更灵活的空间。如果作为客户的组织考虑使用第三方的数据中心设施,那么在批发数据中心
    的头像 发表于 12-15 16:49 2293次阅读

    托管数据中心的灾难类型和解措施

    托管是一项重要的灾难恢复策略,它是确保关键任务系统和数据文件能够得到安全保护并在需要时可用的重要资源。
    的头像 发表于 01-03 16:09 1615次阅读

    混合云在托管数据中心是至关重要的

    托管数据中心提供商多年来一直面临来自公共云提供商带来的严峻挑战,这已经不是什么秘密。随着Azure和AWS等公共云平台功能越来越强大,托管数据中心提供商通过出售和出租机架和空间为用户提
    的头像 发表于 01-15 16:24 1901次阅读