图片 5

基础设施人员如何合作,数据中心如何抵御突发事件

需要准备一张计算机机房平面图,并根据环境的变化而定期更新。这张平面图需要展示指定区域(为特定类别计算机硬件提前预留的空间占到3/4)中所部署的所有机柜、机架及独立设备。机架的正视图应显示从底部到顶部需要安装的硬件及其具体安装位置。IT代表人员需要确保总体规划会考虑到各项特殊要求,包括连接、与其他硬件或网络设备的通信需求及距离限制等。

在过于异常的天气里,很多情况已经远远超出了人们的预料之外。这对于对环境有着严格要求的数据中心来说,无疑是一场严峻的考验。数据中心对于安全性有着极高的要求,即使发生地震、水灾等自然灾害和设备故障、火灾等突然事件,数据中心也必须具备很高的安全性和可靠性,以保证企业业务的连续性。

设施和IT人员还可采用另外一种方式大幅度减少机房环境的风险性:每个将要进入机房的个人需要阅读整套数据中心机房工作程序指南。这个文件应该描述工作活动中的所有注意事项,通常是10~15页长。各个部门的经理需要与允许进入机房工作的员工及供应商(不管是否有人陪伴)一同阅读这份文件。签名的复印件需要归档并且每年更新。对于这些有人陪伴参观机房(非工作)的人员,需要阅读该文件的简缩版。

案例二 水淹土耳其Vodafone数据中心

之后,我们就可以采用这些通过验证的方法来将可用性风险减少至最小。行业数据显示,在由设备导致的计算机运营故障当中,大多数是发生在机房而非基础设施建筑中。

图片 1

四、虚拟化技术

鉴于这些因素,发生混乱及失误的机率非常高。要避免这种情况,就需要各个部门通力合作,清晰定义关键任务的具体流程及责任人。

其他成因: 新风用加热水管冻裂; 室外雨水通过穿管孔入内;
由室外玻璃窗进雨水; 加湿罐在工作时,被电极烧穿。

IT和设施人员越来越依赖彼此来为数据中心客户提供高可用性的服务。你的公司是否有效地处理了这个关键关系中最重要的部分?要自信地回答这个问题,了解一下这两类人员共同承当的哪些责任导致了最常见的可用性故障是有帮助的。

图片 2

第三个减小风险的方法就是减少可以访问机房的人员数量。如果将访问机房的人数最小化,发生失误的风险性也可大大减少。这需要高级管理人员强有力的支持。只有每周至少需要在机房工作一天的人员才可在没有人陪同的情况下独自进入机房。其他人员在进入机房时都需要有他人在场。入选的某些工作人员,如果对机房工作程序有一个透彻的了解,可使用临时工作卡进入机房。每个季度,需要由管理人员审阅这个访问清单,以确定个人再次访问机房的要求。

一、机房选址

这是一个最需要优先考虑的事项。一个成功的IT/设施团队需要清晰地界定哪些部门及个人可安装及移除机房中的电源、网络电缆及连接。各个部门需要就各自负责的工作划分清晰的界线,并达成一致性意见。他们需要定义设施部门应将电源线连在服务器机柜的哪一边;

经过检查发现,这些水来自于空调管道,而这些管道被铺设在天花板上方,而且没有经过严密的密封处理。

布线和连接流程

很多明智的企业都转向虚拟化,从而大大降低成本。在紧急情况下,这也是快速恢复IT活力的一种方式。利用虚拟化技术,可以将操作系统、应用软件和数据打包装入到基于操作系统之上的应用软件中。封装的应用程序可以很容易的传输到场外——作为数据的一种传输方式,并为远程计算机用户提供访问。虚拟化技术可以大幅减少停机时间,将宕机时间从数天减少到数小时。

设备团队成员需要确保总体规划考虑专门的制冷及电力需求,例如,如果制冷功能从活动地板提供,就在机柜底部放置一个高热能的服务器。IT及设施管理人员都需要委派一名后备人员。没有IT及设施管理总体规划负责人的允许,不可安装或拆装计算机硬件。

图片 3

背后的原因很简单:人们通常是在机房而非放置支持设备的建筑物里出现。风险通常是复杂的,一方面是因为机房由多个部门管理,一方面是因为支持机房的多个系统的运营需要各种各样的技能。

二、灾备计划

通过针对性地处理这些常见的导致运营障碍的干扰性因素,并采用以上提及的清晰界定的流程,数据中心公司可大大提高数据中心运营的连续性。此外,应用的连续运营也将大大提高数据中心正常运行时间的长度。

温度偏差造成的问题:
吊顶空调送风温度低,且室内相对湿度高,易造成结露滴水;
机房内吊顶上、活动地板下与普通办公室连通,机房内温度过低,吊顶内楼板结露滴水;
机房内温度低,室外高湿新风直接送入机房,机房内的原有物件、计算机、活动地板、隔断全部结露;

哪个部门将负责将配电单元(PDU)whip连接到一个独立的计算机设备上;

3.机房由于使用恒温湿装置,一般情况下应不使用暖气系统、但对于特别寒冷的地区,必须使用暖气时,一方面在暖气下应设立防水槽,万一暖气漏水,也会顺利脱离机房;另一方面可以采用钢串片式暖气片,管道全部采用焊接,防止漏水;

从IT及设施部门各自分派一个人来负责计算机硬件总体规划的准备和管理工作是下一个最重要的目标。这两个人需要每周碰头,决定新购进的电脑应安装在楼面及机柜中的哪个地方。

案例一 美国Hunt Valley数据中心遭遇水管爆裂

哪个部门有权移除网络连接器等。图表或相片需要配上职责界限的书面说明,以进一步明晰各自的职责。每个部门只能允许2~3个人来负责这些关键布线任务:其中一个人负主要责任,而其他人则负责支持工作。这些角色的连续性是非常重要的,因为连续性可以保证一致性,并将发生误差的可能性最小化。

2.所有布线在走线槽里,走线槽离地约50-100mm;

硬件总体规划

针对水灾防御的关键问题:

更少的人力——更少的问题

若是数据中心针对以上几个问题提前做好水灾防御措施的话,成功抵御必然在意料之中。当然水火无情,不能因为注重防水而忽略了火灾的危害。

保证程序上的清晰性

2008年,美国Hunt
Valley数据中心洗手间的一根管道爆裂并涌出大量的水。好在该中心的服务器机柜设计较为合理,离地间距为4英寸(1英寸=0.0254米),管理人员及时的发现了这一险情,并快速抢修,总算是有惊无险。

我国南方多省份夏季会出现暴雨连袭现象,多地因此受到影响。今年,我国湖南全省三条大河的水位不断上涨,水位全线超警戒。江西境内主要河道12个站水位超警戒,江西省调度的大中型水库4座超汛限。鉴于广西多地出现洪涝灾情,广西防汛抗旱指挥部7月1日决定自16时起,将自治区洪涝灾害Ⅳ级应急响应提升为Ⅲ级应急响应。

案例三 澳大利亚Datacom数据中心遭暴雨冲击

由机房专用空调导致的问题:
由于排水管的坡度较小、水管偏细、腐蚀及堵塞等带来的排水不畅;
与加湿器连接的软管紧固件断裂; 上水管处快接头连接不良
吊顶空调接水盘溢水。

IDC主机房间地面和空调室应建立100mm高的防水坝,并在防水坝的范围内做防水处理。在整个防水坝的范围内安装漏水报警系统,并与空调上水进水电磁阀联动,这样一旦发生漏水则可及时切断水源。由于机房外采用水消防,故可以在机房气体保护区分界墙体安装400mm高的防水坝以隔断可能产生的水患。同时,除了地面上要注意防水之外,也要注意屋顶的修建,屋顶应有足够的机械强度以及防水性能,位于机房上方的各种管路也应该妥善安装、定期检查,以确保水不会从机房的上方漏下来。

当然,在数据中心的具体产品层面,比如在应对地震等自然灾害的时候,可以将数据中心构建在减震器上面——用金属和橡胶制成并安放在建筑物内的隔离层,可以
吸收地震发生时带来的震动。某些数据中心拥有楼级和机架级的减震隔离层。此外,所有的服务器机架设施,冷却设备和其他设施都牢牢地受到地板的保护。

一家优秀的IDC服务商,应当在发生诸如地震、水灾、雷击、火灾、机器故障这些偶然事件时,也具备很高的安全可靠性,保证业务不会停止。完善的灾备计划对于提高数据中心抵御水灾来说是十分重要。

2010年,大暴雨将Datacom主机代管中心的天花板冲毁,使得服务器、存储和网络设备都遭损坏。起初该公司否认出现问题,但随着事故在网络上得到曝光,人们逐渐知道了真相。

5外墙外增加引水渠;

2009年9月9日,土耳其伊斯坦布尔遭遇暴雨并引发了洪水。由于地势低洼,疯狂肆虐的洪水淹没了该市Ikitelli区的大部分地段,也淹没位于该区的Vodafone数据中心。城市里的很多Vodafone(沃达丰)手机用户都因该数据中心被淹而无法使用通信服务。

从以上几个实例中我们可以看出,水灾对数据中心的影响之大已经是毋庸置疑。为了避免水灾对数据中心带来的潜在危害,数据中心的选址、海拔、机柜离地间距甚至是整个数据中心建筑物的设计,都需要有一个充分的科学论证,才能有效保证数据中心远离水灾可能造成的事故。

6定期进行安全检查,有无破损或者异常情况,早发现早预防。

数据中心选址时,在综合考虑自然地理条件、配套设施、周边环境、成本因素、政策环境、高科技人才资源环境、社会经济、人文环境等各个因素的前提下,应尽量选择足够的海拔以及不易受到水淹的位置。

三、机房建筑

另外,我们这里还要介绍一种意外事件带来的潜在威胁。当IT管理员周末步入数据中心查看的时候发现,机房顶端的天花板已经湿透并逐渐往下渗水。渗出来的水流入到地面并不断积压。管理员发现后立即将水桶放到渗水的位置,避免水位进一步提升。

遭到暴雨冲击的Datacom数据中心

图片 4

数据中心一旦有水灾事故发生,就会瞬间造成设备损坏和信息丢失,会带来无可挽回的经济损失。那么,我们先来看一下几个曾遭受水灾的案例:

【编辑推荐】

伊斯坦布尔Ikitelli地区所处位置(截自谷歌地图)

灾备计划其实应该包括软硬件层面。软件层面包括人为的风险评估、定期审查、软件系统的相互依存和备份。硬件层面包括硬件冗余、UPS、数据备份、异地灾备等等。

1.空调机下,加漏水报警;

数据中心的天花板漏水

还有一些常见事件如:

五、防灾措施

遭遇水管爆裂的Hunt Valley数据中心

4.空调机放在空调区内,在活动地板下用“堤”与机柜区隔开,空调区设地漏;

图片 5