执行概要
云计算正在引起广泛的讨论并为企业IT世界带来了活力。由于渴望提高效率和降低成本,各种规模和各式各样的组织都在迅速地采用基于Web的软件、平台和基础设施解决方案。确实,分析公司国际数据公司(International Data Corporation)预计在2009年到2013年间,全球企业在云服务方面支出的复合年均增长率将达到26%,即从174亿美元增长到442亿美元。专家们预测也就是几年的时间,大多数企业都会至少使用一些基于云技术的应用和服务。
然而,除了能够简化管理、提高灵活性之外,云计算也对供电、冷却和可用性带来了挑战。为了应对这些挑战,各企业必须增加其电气及机械基础设施的强度和弹性。
本白皮书调查不断采用基于云的解决方案背后的推动力,研究云架构如何影响数据中心,讨论一系列能够帮助公司在不损失正常运行时间或过载其供电与冷却系统的情况下受益于云计算的具体方法与技术。
了解云计算
尽管存在各种各样的定义,云计算最基本的定义就是IT基础架构、服务和软件通过互联网或内部基于Web的基础架构进行实时交付。一般来说,云解决方案分为三大类:
软件即服务(SaaS),这种解决方案通过云来交付软件应用。例如,在线CRM应用Salesforce.com和基于Web的生产力套装软件Google Apps,都是常见的SaaS服务。
平台即服务(PaaS),这类解决方案提供在线访问计算资源和编程工具,开发人员可以利用这些资源和编程工具来创建和控制基于云计算的应用。如:源于Salesforce.com的Force.com,还有Microsoft Windows Azure,就是两个人们比较熟悉的PaaS解决方案。
基础设施即服务(IaaS),这类解决方案通过Web提供像存储空间和处理能力这样的基础设施资源。亚马逊网络服务(Amazon Web Services)就是最著名的IaaS提供商之一。
无论是哪一类云计算解决方案,它们都能通过“公共云”(public cloud)或“私有云”(private cloud)来交付。公共云解决方案通过互联网交换数据。在用户端,除了一个Web浏览器和高速互联网连接外,它们不需要任何基础设施,其典型的收费方式为订阅型现收现付制(subscription-based),您只需为所使用的资源付费。私有云解决方案利用相同的基础技术和协议作为其公共对等物,但驻留在企业防火墙内的私有或租用的服务器上。许多IT经理人们都相信,私有云方案使他们的安全和管理工作更加轻松。
无论是公共云还是私有云解决方案,都能够带来大量的商业和技术方面的效益:
效率:云解决方案通常运行在灵活、高度自动化的基础架构上,它们在管理上更加简单,因而成本更低。另外,由于它们不需要本地服务器资源,公共云解决方案使各企业避免了巨大的前期软硬件投资,使IT由资本支出转为费用。
灵活性:大多数云基础架构都广泛采用服务器虚拟化技术,这种技术允许单个物理服务器宿主成多个“虚拟服务器”,而每个虚拟服务器都有其自己的操作系统和应用程序。由于那些虚拟服务器本质上只是些复杂的计算机文件,创建一个虚拟服务器所需的时间只相当于建立一个新的物理服务器的一小部分。因此,云环境使企业部署新的应用和服务的速度远远高于传统环境。
可扩展性:大多数云方案都利用虚拟化带来的灵活性,使用户根据需求的变化而动态地增加或去除处理与储存能力。
云计算如何影响IT基础设施
维持可用性和提供充足的供电和制冷能力对于传统的数据中心管理人员来说是长期存在的挑战。然而,由于种种原因,云数据中心的管理人员要解决那些问题会更加困难。
供电与制冷
大多数云基础架构用于宿主虚拟机的服务器硬件都比典型的单一功能的服务器更大且更稳定。同时也得到更为广泛的利用:当平均非虚拟服务器以5~15%的处理能力运行时,平均虚拟主服务器在任何时候的利用率可能高达80%。鉴于这两种原因,大多数云数据中心的虚拟主服务器都比传统服务器需要更多的供电,配电装置(PDU)、配电盘和不间断电源系统(UPS)的负担也更重。
当企业部署刀片式服务器来宿主其虚拟服务器时尤其如此。刀片式服务器采用多个即插即用型处理装置,它们共享公共的电气系统、电源、风扇、电缆和存储器。这样的安排节省了数据中心的占地面积,简化了硬件管理,并提高了IT灵活性。然而,这同时也大大增加了运算密度。结果,刀片式服务器产生大量的热,从根本提高了机柜级供电要求。确实,一个典型的传统服务器机柜可能需要4至6 kW电力,而一个典型的布满刀片式机架的机柜则可能需要高达30 kW的电力,远远超过许多电源和冷却系统的处理能力。
图1:大多数云基础架构为超高密环境,机柜级供电要求远远高于传统的数据中心。
可靠性
大多数云计算环境大量采用虚拟化技术对可用性具有重要影响。在传统的数据中心,每个服务器通常只支持一种应用。而在虚拟化的云计算数据中心,一个主服务器可以支持几种或多种应用。因此,一旦主机发生故障,将会影响大批用户和企业职能。
此外,令云计算和虚拟化如此吸引人的灵活性也能够在有意无意间导致停机。没有正确的管理,在数据中心内或跨数据中心的突然转移工作负荷会造成电路过载或冷却系统负担过重,进而使关键的系统崩溃。
基于云基础架构的供电与冷却策略
IT及设备管理人员可以通过实施下述策略来应对为云环境提供供电和冷却的巨大挑战。
采用模块式供电与冷却系统组件
任何云数据中心的管理者都不希望其供电和冷却能力无法满足客户需求。另一方面,在未来需要之前过早地提前部署额外能力会浪费大量的时间、金钱和资源。
采用模块式供电系统组件是一种更理想的作法。这类产品使您能够随着需求的增长而快速、递增式地提高能力。例如,用于小型云环境的模块式可扩展型UPS可以基于能够安装在标准设备机柜内的12kW组件,提供高达50或60kW的供电能力。随着需求的增长,IT人员可以插入另一个12kW组件,供电能力(在本例中)从12kW增加至N+1架构的60kW。此外,基于机柜的模块式供电系统组件都倾向于采用紧凑结构,且易于安装,这就使其非常适用于技术人员会经常移动、改变和增加基础设施资源的快节奏的云数据中心。
UPS供电模块的规模小到3kVA,大到1,000kVA以上。一般来说,企业应该部署比成品模块预计满容量小4~6倍的UPS模块。
图2:模块式电源组件让您根据需求的不断增长而递增式地提高能力。
部署被动式冷却系统
现在,大多数企业都在其服务器所在楼层的周围部署机房空调(CRAC)装置来解决数据中心产生的热量。许多公司还采用“热通道-冷通道”式硬件配置,针对指定的服务器机柜只配置了热风排出或者冷风吸入。这就产生了对流循环,从而形成冷却的连续气流。然而,虽然这类技术基本足以应对传统数据中心的需求,但却往往无法处理云基础架构产生的巨大热量。因此,公共和私有云环境通常需要更先进、更强大的冷却技术。
模块式冷却系统组件与上面讨论过的UPS设计类似,目前许多制造商都有生产。然而,根据需求的增长部署额外的冷却模块并不像模块式UPS那么简单。数据中心管理人员通常必须提前为那些设备安装造价昂贵的地板下或架空管道。因此,许多公司宁愿通过配备带有变频驱动或电子整流(EC)扇的CRAC和机房空气调节器(CRAH)系统来降低与冷却相关的耗电量。变频驱动让空气调节系统在服务器需要较少的冷却量时运行得更慢,在工作负荷达到峰值时运行得更快,从而达到节能目的。同样,EC风扇采用“智能”电机,根据气流的需求量运行得更快或更慢。
图3:在最初施工时可以加装带快速接头的地板下或架空管道,尽管它们会增加施工成本
追求更低前期成本和更高运行效率的公司可以安装被动式冷却系统。它们的机壳上装有一个气密的后门和烟囱,用于收集来自服务气的热排风,并将其直接引导至CRAC装置上的回风管道中。然后,CRAC装置对排风进行冷却并重新循环。被动式系统要求机柜从前到后都具有较强的气密性,以便与由CRAC装置进入的冷风混合的服务器热风尽量少。通过比普通的热-冷通道技术更彻底地分离冷风和热风,设计合理的被动式冷却系统甚至能以低成本使灼热的30kW服务器机柜在安全温度下运行。
图4:本文所述的被动式冷却系统利用气密的机壳和烟囱在热风与冷风混合前排出数据中心,从而使温度管理更加高效
建造多个设备间
提供公共云服务的大型数据中心通常在与服务器楼层相邻的指定设备间内配备UPS设备。建立两个设备间,一个用于UPS和供电系统电气组件,另一个用于UPS蓄电池,这种安排的效率更高。由于UPS电子装置的典型安全工作温度为35°C / 95°F,UPS蓄电池温度通常必须保持在25°C / 77°F。
将UPS蓄电池放在其自己的环境可控房间内可以减少冷却系统必须处理的热量。将放热量较大的设备部署在可接受的高温环境中有助于降低冷却需求和节省电费。
改善云基础架构可靠性的策略
尽管云计算使得保持正常运行时间更加困难,下面所讨论的方法和技术能够显著改善这项任务。
进行电源链审计
打算在现有数据中心的基础上增加云基础架构的企业应该在其部署前规划中包含电源链审计。由通过认证的供电系统工程师进行审计时,电源链审计有助于评估您的供电系统和确定哪个需要进行升级、扩展或现代化(如果有),以支持云环境更苛刻的要求。另外,电源链审计还能够帮助您识别潜在的成本节约机会,评估您的供电组件的电气安全性。
为供电基础架构增加冗余度
企业可以利用如下的冗余供电系统架构来提高可用性和减少计划外停机的可能性:
N+1:N+1架构比保持服务器设备启动和运行所需的最低要求多一个UPS、发电机或其它供电组件。因此,如果任何一个组件发生中断或需要维护,其余系统仍能提供充分的保护,以免数据丢失。N+1架构一般足以满足小型或中型云环境的需求。
图5:即使UPS因技术问题或维护要求而关闭,N+1供电体系结构仍能继续工作
2(N):它对于大型云环境是一个不错的选择,2(N)架构的特点是有两个独立但相同的供电路径,每个都能自行支持整个架构。在正常情况下,两个供电路径均按50%供电能力工作。然而,如果一个路径发生计划内或计划外停机,另一个就会临时按100%供电能力运行来进行补偿。
2(N)架构与含有双电源的服务器配合使用。在这种排列中,每个电源一般都是利用一个独立的供电路径。那样,即使整个动力总成都关机进行维修或维护,服务器仍然可用。
图6:A 2(N)电源架构利用独立且相同的供电路径。如果任何一个路径发生故障,另一个会自动补偿
部署复制软件
为了进一步提高可靠性,云数据中心管理人员可以使用基于软件的冗余技术,如:复制。复制解决方案持续捕获所保护的服务器上发生的变化,然后接近实时地将其复制到备份服务器中。如果主服务器发生故障,则备份服务器能够迅速介入,从而确保无缝的可用性。
利用实时迁移软件
利用许多服务器虚拟化解决方案中内建的实时迁移功能是另一个有效的基于软件的可靠性策略。实时迁移系统,如:VMware公司的在线迁移(vMotion)解决方案,让管理员能够几乎同时地将虚拟服务器由一个物理主机迁移至另一个物理主机,以解决技术问题或满足维护要求。假如一个物理服务器有即将发生故障的迹象,技术人员就可以利用实时迁移软件迅速地将其虚拟机转移至另一个宿主机上,直到问题解决为止。
部署集成管理软件
清洁、可靠的电源是云基础架构作为处理能力和存储空间成功运行的关键。那么,为了让云数据中心保持平稳运行,管理员需要关于其IT资源和电力资源的完整的最新信息。现在,许多云操作人员都利用独立的管理工具来监测其服务器和电源环境。然而,现在有了集成的解决方案,它让管理员能够只通过一个控制台就能管理物理服务器、虚拟服务器、UPS、PDU等。
例如,最新发布的伊顿公司(Eaton)的智能电源管理器(Intelligent Power Manager)软件和VMware的虚拟中心服务器(vCenter Server)虚拟化管理系统配合使用,支持在一个地方综合查询与网络和电源相关的事件和报警信息。此外,管理员还能对这两个系统进行设置,让其根据状态信息动态地工作。假如您的数据中心发生电气中断,智能电源管理器(Intelligent Power Manager)和虚拟中心(vCenter)便可以从容地在您的UPS系统电量耗尽以前关闭受影响的虚拟及物理服务器。或者,如果数据中心配备有在线迁移(vMotion),您就可以自动地将受影响的虚拟机迁移至另一个完全运行的设备上的宿主设备。无论采用哪种方法,从最终用户的角度来说,最终结果就是持续的正常运行。
结论
基于云的软件、平台和基础架构解决方案提高了IT运营的效率和灵活性。因此,许多企业现在都在开发和利用公共和私有云,并且在接下来的几年里会有更多的企业加入。
然而,云计算也使数据中心遭受到更大的新压力。云基础架构广泛利用了虚拟化和更强大的服务器(包括刀片式服务器)和技术,显著地提高了机柜级供电和冷却要求。此外,云数据中心一般是动态环境,虚拟工作负荷在物理主机之间自由的迁移。它增加了IT业的灵活性,但也会导致电路损坏及其它致使服务中断的电气问题。
为了掌控这些挑战,各企业应该采用能够提高其物理及虚拟环境(包括供电和冷却系统)可靠性和冗余度的技术和工艺。它们包括模块式电源组件、被动式冷却方案、复制解决方案和实时迁移软件。另外,对物理及虚拟系统进行适当的监控将有助于企业更加轻松地管理其基础设施。总之,这些工具和策略能够帮助任何公司可靠而低成本地享受云计算的力量!
评论
查看更多