管理软件

  |  手机版

收藏网站

投稿QQ:1745232315

IT专家网,汇聚专业声音 解析IT潮流 IT专家网,汇聚专业声音 解析IT潮流

网络

专家视点在现场环球瞭望
IT专家网 > 管理软件

数据中心 里的 应急关机技术

作者:匿名出处:论坛2015-12-17 10:18

  数据中心需要全年不休地运转,无时无刻都在对外提供各种应用服务。数据中心里有大量的电子设备,也和人一样是需要休息的,不然迟早都会出现这样那样的问题,其中应急关机就是数据中心自我保护的一种方式。显然在关机的前面增加了一个修饰词“应急”和关机的意义就完全不同了,应急关机必然不是关机那样关闭一下按钮或者拔掉电源那么简单。前面也说了数据中心是全年不休地工作,对数据中心内的设备进行关机,需要考虑这样的操作对整个数据中心的业务影响,是否在关机之前做足了准备工作、是否制定了详细的关机预案、是否有回退机制等等,这绝非是开关一下电源那么简单。下面就来详细说一说数据中心里的应急关机。

  应急关机是提前有周密计划来关闭部分运行设备的方案。应急关机作为应急响应过程的处置之一,是每个数据中心都必须考虑的问题,在很多特定的场合下,数据中心就需要应急关机。比如:由于数据中心自身存在的缺陷被暴露,或者数据中心所在地区出现了地震、火灾等灾害,使得数据中心可能受到外界的严重威胁,使得数据中心数据受损或者被破坏,在不得已的情况下就需要启动应急关机,临时关闭部分甚至全部的对外业务,保护数据中心不受到损坏;数据中心里的电子设备特别多,这些设备或多或少都存在一些问题,这世界上没有一点BUG都没有的软件,认为自己使用的设备没有问题,只不过是还没有碰到BUG 而已,所以一旦数据中心遇到这些设备BUG,很多时候就要对设备进行软件升级,补丁搞不定就需要升级软件版本,可很多设备还无法做到不重启升级软件,这就需要应急关机,对设备进行关机重启;还有数据中心里的服务器、存储等设备运行久了,长时间运行不重启会累积大量的内存垃圾,周期性地对这些设备进行主动重启,可以提升设备的运行效率,而且主动重启设备还可以规避一些BUG暴露出来,避免BUG导致设备运行异常而对数据中心业务造成影响。如此看来,应急关机是数据中心运行过程中不可缺少的重要一环,每个数据中心都要经历的一个方案,是对数据中心运行的一种主动保护。

  应急关机需要做好三方面的准备工作,才能通过关机达到预期效果。在一些紧急情况下,有应急关机方案,往往可以使数据中心免遭一劫。首先,关机前要做好关机的流程。在数据中心里,应用与应用、应用与设备、设备与设备之间普遍存在着依赖关系,一定要按照固定的关机顺序来执行,避免应急关机给数据中心带来伤害。比如:在计划关闭网络设备之前,应该先将各种数据库服务、存储服务、支付系统等重要应用切走或者关闭,然后关闭外部访问入口、关闭计算节点、管理节点等,避免直接关机网络设备对正在提供服务的系统紊乱或者数据丢失,做好这些步骤后再去关闭网络设备,一般步骤应该是先关闭应用层服务、然后底层数据传输设备,最后是物理链路,越上层的服务越应该先关机,在应急关机前要将操作的步骤固化下来,然后按照步骤依次执行。与此同时,对于每个操作步骤的耗时要进行预估,确定各个环节花费的时间,控制好应急关机的各环节,一旦与预期不符,还要启动相应的回退或者规避方案。既然叫应急关机,更多的时候关机是突发、临时执行的,难免会出现执行异常的现象,与原有的预计结果不符,这时就需要根据实际情况灵活应对。在应急关机之前应该准备好备件,对关键设备进行备份,将部分配置提前做好,一旦出现异常情况时直接用备件进行替换。在无法避免损失的情况下,一切以关键数据的划分结果为依据进行取舍,这种情况下考验着数据中心人员的智慧。还有关机的时长也是一项必须要考虑的重要因素。很多时候在关机步骤执行完毕之后,往往需要密切关注数据中心外部情况,确定再次开机的时机,也有的时候应急关机是很快又进行开机了,这个关机的时间长短要根据出现紧急情况的具体情况,经过评估来确认关机时长。其次,在关机执行过程中,每一个步骤执行完毕后,都需要对执行结果进行确认,同时与原有预期进行对比,看是否达到预期结果。当发现与设定的情况不符,或者已经出现了失控局面,需要即刻启用回退方案,恢复原有运行状态。最后,应急关机后,根据设定的关机时长,还需要进行开机。开机后,需要对数据中心运行情况进行密切关注,不是设备都启动起来就完事儿了,很多时候评估数据中心是否运行正常、稳定,往往需要观察数天,一旦发现依然存在问题或者风险,还可能需要二次应急关机。

  从应急关机的三大部分,在关机前要做的工作最多,也最为重要,这也正是应急关机的重要体现。当应急关机策略制定完成后,应该定期组织应急演练,发现缺陷马上进行修复,确保最终应急关机方案没有漏洞,应急关机的方案也不是一成不变的,随着时间的推移和人员的变更,还需要不断进行修改。这样周期性地组织应急关机的演练非常重要,只有这样才能发现方案中的不足。

  任何一个数据中心都不愿意出现需要应急关机的情况,但是一旦必须要做出关机决定时,就一定要提前做好充足准备,有详细的应急关机预案,以免在应急关机时,人员都手忙脚乱,毫无组织,乱作一团,这样的应急关机往往会给数据中心带来严重损失,起不到保护数据中心的目的。

相关文章

关键词:数据中心 , 应急关机技术 ,BI

责任编辑:杨爽

网警备案