IT危机千机变
他山之石,可以攻玉。印度是个神秘的国度,本期专题特别刊登四位来自印度的CIO面对IT危机到来时候的反应。我们总结了一些如何预防和面对IT危机的思路和做法,和大家一起探讨。
文 / 转载/IT168 (2007-10-11 15:38:15.0)
本文TAG: |
或许CIO们遇到这些事件的可能性很小,但是如果不做好应对IT危机的准备,一旦发生问题,对企业的打击就是致命性的。
俗话说,他山之石,可以攻玉。印度是个神秘的国度,这些来自印度的十位CIO各自拥有着自己的看家本领。从这些CIO处理IT危机的过程中,笔者总结了一些如何预防和面对IT危机的思路和做法,和大家一起探讨。
1 未雨绸缪与亡羊补牢。很多企业的CIO都是真正经历了IT危机后,才对制定合理的危机响应流程有了真正的重视,可谓“不经一事不长一智”,不过这样付出的学费可能会比较高昂,如果能根据别人的经验,结合自己的业务系统实际情况,提前制定好科学合理的IT危机响应办法,或许能防患于未然,或者将IT危机控制在很小的影响范围内。
当然,“经一事长一智”比经一事而不长一智要好很多,在IT危机真正发生后,CIO应该彻底对此进行总结,做到亡羊补牢,也算是一件好事。
2 CIO要技术、业务两手抓。有人说过,CIO的左手中如果是技术,右手里必须是业务,他的脑子里就是两者的融合物。原先的CIO主要是技术人员,主要负责技术层面的东西,例如优化信息技术的获取、应用和整合,而现在这个概念已经变得越来越模糊不清,今天的企业对CIO职责的需求呈现出多元化方向:视企业业务需要而定。
在实际工作中,CIO们经常会面临一些看似和IT技术风马牛不相及的问题,但是却可能会影响IT系统或项目的顺利进行,这时候CIO不能对CEO说,“这和我无关。”
3 解决IT危机要追根寻底。很多CIO在面临IT危机的时候,往往会被一些表明现象所影响,往往治标不治本。因此CIO们在面临IT危机的时候,要透过危机的表面现象,查找到引起危机的真正根源,从根源上真正将危机解决。无论是技术性还是管理性问题,解决办法莫不如此。
4 应对IT危机需区分轻重缓急。CIO总会遇到各种各样的问题,随机应变显得非常重要。一些突如其来的变化,例如国家政策的突变,非常考验企业信息化系统的应变能力;尤其是对于一些生产、销售性企业来说,能否及时根据政策进行迅速及时的修改,将直接关系到企业的利益所在。CIO们一方面要选择应变能力强的企业信息化系统,一方面要根据系统的轻重缓急,先对重要业务系统进行修改。
另外,在IT危机发生的时候,CIO要保持清醒的头脑,应根据危机发生的实际情况,采取合适的应对措施,将危机带来的影响减少到最低。
5 做好灾备 提前预防风险。企业IT系统面临的风险很多,因此做好灾难备份方面的工作非常重要,CIO们应该根据业务实际需要制定好详细的灾备计划,例如备份的时间间隔、备份的类型,本地备份还是异地备份等。
另外,要定期进行恢复试验,以确保一旦系统或硬件出问题可以迅速恢复到故障前的状态。当前很多企业中的灾备设备只重视硬的方面,而忽视了软的方面,很大程度上使灾备设备更像一个摆设,不能最大程度的发挥其作用。
6 保障系统网络运行正常。随着网络的普及和企业规模的扩大,现代企业可能在不同的地方有分公司或办事处,而它们的各种信息化系统则借助于网络连接在一起,核心交换机或核心路由器等中心设备则是这个网络中的中心枢纽,它的稳定与否会给信息化系统带来直接的影响。对于CIO们来说,为了避免因为核心设备故障带来的IT危机,配备应急备用设备和在合同中明确支持服务细节就变得相当重要。
7 IT危机不仅仅来自于IT本身。有时候,IT系统的能否正常运行与否不仅仅取决于你的技术多么先进,一些看似和IT系统无关的细节问题就有可能让企业面临严重的IT危机,因此,CIO在预防IT危机的时候不要把目光仅仅停留在IT系统本身,对于任何一个小的环节都不能忽视。
8 CIO要做好“人的管理”。所有的管理中,人的管理是最难的。而且人才流动快是IT行业的一大特征。然而一些处于关键位置的IT员工流失过多的话,会影响到企业业务的正常运行。那么如何解决因高层IT员工离职所带来的危机呢?一方面,在招聘的时候,IT主管要选择那些流动性愿望更小的人才来担任那些连续性要求强的岗位;另一方面,要挖掘现有员工的潜力,使其不断提高自身能力来担任更高要求的岗位。
如何应对天灾人祸
——访Mphasis公司CIO
在印度著名的软件服务出口商Mphasis的IT部门,风险主要集中在业务流程外包(BPO)操作上。为了缓和公司面临的风险,该公司与其客户实行连续性的计划。另外,该公司的IT部门使用了一个多层标签交换MPLS网络来连接其国内的其他分支机构。在最后一公里接入方面,Mphasis采取了冗余保护,采用两种不同的传输媒体互为备份,在其中一条出问题的时候,另一个条线路还可以让业务保持正常。这些应对措施令其不仅能轻松应对来自人为的风险,即使发生了台湾地震那样的自然灾害,Mphasis的CIO也能高枕无忧,他就是这样给我们讲述了两个应对自然灾害的故事。
两项改进应对资源危机
尽管应对措施非常完善,我们还是曾经面临过一次非常严重的网络资源耗尽危机,很多网站遭受着被中断的危险。后来,我们发现我们的冗余设计在服务商接入点POP上存在问题,在其上联处只有一个路由器。这意味着连接到这个特定MPLS服务商接入点POP的网站被影响了。
幸运的是,我们在班加罗尔有一个24×7×365工作的全球网络运行中心,它可以全天24小时地监视我们网络的运行情况。它发现了这个问题。而且由于我们及时采取措施,我们不用再去求助于我们的灾难恢复计划了,该计划将在灾难发生4小时后启动。
根据这次事故的经验,我们采取了两个改进措施:首先,我们在服务商接口地方进行了冗余设计;另外我们还将最后一公里接入的其中一条线路转移到第二个服务商接入点上。这种级别的设计很容易,同时也让我们的网络可以一直保持不出问题。
双层ATM环的保障
我们的系统经常遭受到来自大自然的考验。2004年发生的海啸影响了其中一条线路,在另一条线路保持顺畅通信的情况下,我们顺利恢复了出故障的线路。另一次是最近台湾的地震,这次地震对我们的网络造成了一定威胁,但是我们把所有数据的路由从太平洋线路无缝地切换到了大西洋的线路上,因此这中间没有一分钟的断线。
因此到现在为止,我们还没有面临任何真正的危机。
我们可以实现这些事情是因为我们的网络是一个具有冗余线路的双层ATM(异步传输模式)环。这意味着我们使用了不同的线缆系统,可以在发生意外情况的时候可以自动切换系统到没有故障的线路中。
我从风险降低中所学到的最重要的东西是,IT危机需要从源头上解决。CIO们不应该在签订了一个合约后,整日担心其风险的发生,而应该在危机发生后,甚至危机发生前就从源头上将其彻底解决掉。
系统崩溃 我却不能
——访JWT公司高级副总裁兼区域主管Sunil Mehta
JWT公司现在拥有一个全单位灾难恢复和业务持续性计划,而且公司的IT人员还在继续完善它们的灾难恢复计划,并定期进行练习。而说到现在这个全面完善的系统,却又不得不提到几年以前那次偶然的事故。
软硬件都需备份
大约三年以前,JWT公司的一直24×7运行的核心财务服务器宕机了一天,原因是一些操作系统和硬件故障。这个公司的风险排除时间可以接受的时限是48小时,不过通过这次事件,该公司的IT人员认识到,除了灾难恢复过程外,一些其他因素,诸如备份的管理和维护一个简洁干净的灾难恢复体系,都可能导致一些严重的问题。
Sunil Mehta表示,“我们一直对关键的数据进行定期的备份,因此在发生崩溃故障后,我们决定根据这些备份进行恢复。但是由于操作系统也崩溃了,我们发现热插拔设备、备份设备和盘阵已经没有用了。我们不得不恢复整个操作系统、应用程序和它们各自的参数和数据。这是我们从这次事件中学到的第一件事情:我们不应该仅仅依赖一个软件备份,同时也要做好硬件备份。”
“我们要面对的另一个严重的问题是,当我们试图从某些备份介质上恢复数据的时候,才发现这些备份介质不能被读取。这并非是一个特殊的问题,因为人们很少检查这些介质是否正常工作。这又给了我们一个教训:必须要确认备份介质是可以正常工作的。以后,根据萨班斯法案(SOX),我们对备份过程进行确认。”
事无巨细 有备无患
“尽管最后我们想办法恢复了所有的数据,我们还是意识到必须具有一个详细定义的企业范围内的备份过程。除了每天备份到磁带上之外,我们还每周进行备份。每日备份是在线进行的,而每周备份则进行离线存储。另外,还进行每月和半年一次的备份;后者需要财务领导现场监督和确认进行恢复试验。”
“这些详细的过程使得我们即使在最坏的情况下,也仅仅丢失了一天的交易数据。既使关键人员的电子邮件被备份到一个海外服务器上,也可以确保任何时候从任何地方都可以访问电子邮件通讯过程。”
“自从那个事件后,我们已经可以保证我们为各种意外情况做好了准备。即使在2005年7月26日的孟买暴雨灾难中,我们也有备无患。但是我认为,风险会一直存在,而我们所能做的全部工作就是减少它们带来的影响。我们必须学会去主动提前解决它们,而不是被动的应付。”
政策突变 如何随需应变
——访Ashok Leyland公司GM应用开发和维护负责人S.Chandraskekhar
2007年2月28日下午8点,S.Chandraskekhar手下的大多数员工已经下班回家,这时,他接到了一个来自公司纳税部门的电话:所有对外的表格要在第二天早晨之前进行更新。这个工作让S.Chandraskekhar必须熬通宵来完成。
新预算策略出台引发混乱
“通常情况下,这样的改变要按照一定的步骤逐步完成,需要进行相关的一系列工作。”但是为什么纳税部门会做出如此紧急的决定呢?因为政府的新预算策略使得公司付出额外的1%的高等教育和中等教育的估价征税。这意味着Ashok Leyland公司要迅速修改许多销售发票。
并非是Ashok Leyland的人不曾预料这样一件事。“我们已经预料到会有这样的改革,但是我们认为现有的2%的教育税将逐步增加到3%。”Chandrashekhar回忆到。提高税率对IT部门来说是一件轻松的事情。但是麻烦在于预算后的混乱,许多公司不确定政府是想把税收混在一起,还是对所有它们的发票创建一个单独的项目。
让Chandrashekhar头疼的是进行这样任务所需要涉及到的相关工作,因为Ashok Leyland使用的不是一个商业化的ERP系统,而是自己开发的一个系统。Chandrashekhar表示,“尽管我们的ERP系统和一些商业化的打包解决方案一样好,”但是税收政策改变的任务将迫使他们必须“对30个不同的程序进行代码修改。”合理的做法应该是等预算混乱的情况得以确认后再进行相关修改。国内的会计师会很快了解政府是否需要一个单独的发票项目,这样IT部门就可以修改公司的发票。
为突变做更多准备
但是,这个卡车制造商显然承受不起这种等待。发票中的修改对公司的影响可以说是至关重要的。Ashok Leyland每个月以超过1.4万美元的平均价格销售8000多台交通工具。如果等待的话,每天的损失至少380万美元,因为发票不能提供,销售将处于停止状态。
而且这也将威胁着汽车部件和原材料的供给。Ashok Leyland的系统无法正常运行,会导致原料供应的中断。这一切会让Ashok Leyand的业务变得非常混乱。“我们的第一反应是请求相关政府部门,向他们申请更多的修改时间。”Chandrashekhar表示。但是由于已经是晚上8点,所有政府部门的电话都无人接听。Ashok Leyland决定采取一种安全的方式,由IT部门来解决这个问题。
Chandrashekhar抽调出他的应用程序团队的四分之一的人来完成这件事情。“我们区分轻重缓急,”他表示。发票产生程序、出入审查产生模块、单位之间的原料交易和支付模块都进行了修改。在一天之内,他们完成了这个工作。
经过这次事件,Ashok Leyand的IT部门意识到,“我们应该做更多的准备工作。而且我们也应该考虑采用一个商业化的打包解决方案。”
木马来袭 如何封堵病毒通路
——访Pantaloon Retail公司CIO Chinar Deshpande
早在今年二月初,Pantaloon Retail就与病毒和木马发生了一场“战争”,当时,病毒和木马击溃了数百台公司的机器,并且可能威胁到整个企业系统的运行。为什么会发生这次危机?经过调查发现,在一年多以前安装的一些老计算机中存在未被发现的定时爆发的蠕虫病毒,病毒已经侵入到两个关键场所中的计算机。接下来的病毒危机几乎将我们陷于混乱中,直接导致了在接下来的两个星期中我们与病毒展开一场搏斗来挽救企业。
病毒爆发
最初的时候,在Pantaloon总部和另一个关键办公室中的某些用户声称在它们的计算机中发现了隔离病毒的情况。不久之后,报告发现病毒的人的数量剧增,同时我们的一流支持工程师也监测到病毒在我们系统中的爆发。
很自然,支持电话纷纷打给我们的高级支持工程师。令他们感到震惊的是,尽管这两个地方的所有计算机都被高端安全套装软件所防护,病毒还是使两百台计算机陷于瘫痪状态,我们的业务连续性将面临挑战,这两个地方的业务几乎处于停滞状态,至少在那一天是处于停滞状态。幸运的是,那是一个星期六。
病毒爆发时间正值休息日,这给了我们两天的时间来解决这个危机。来自赛门铁克的信息安全专家帮助我们分析了危机的情况,并且部署了基于服务器的安全组件。利用这些应用程序,我们创建了一个安全区,来存放那些安全或已经被“治愈”的计算机。这些措施确保大多数我们的用户可以回到正常工作中来。
某些计算机在核心级别遭到破坏,不能启动。于是我们在会议室临时放了几台干净、安全的计算机,安装上关键的企业应用程序,以允许这两个地方的用户来
不幸中的大幸
幸运的是,这些感染病毒的老机器从来没有拿到别的地方用过,只在这两个场所使用。再加上我们的强大的网络安全保证,其他场所的计算机或一些关键SAP服务器或电子邮件服务没有受到影响。
如果没有我们的安全措施,病毒将可能感染我们的核心服务器区,这儿运行着供整个印度的公司分支机构使用的SAP系统;而且它也有可能感染核心活动网络组件,那么我们将不能从任何远程位置访问重要企业信息。更糟糕的是,它可能感染企业数据,业务可能会崩溃。
因为我们能够把病毒发作的范围限制在这两个地方,从而使得企业躲过了这次大劫。尽管这个病毒剿灭行动共持续了两周,不过,新的临时搭建的计算机和新安全体系中的计算机确保了企业的业务在两天内就恢复了正常。
每个季度我们大约要开70个商店,并装备1500台计算机。由于我们要在关键位置上不断招聘员工,我们准备了20到25台笔记本作为备用。这些备用计算机在这次危机中发挥了很大的作用。我们拿来新的硬盘并把它们装上新的操作系统,并装到被感染的计算机中,以让用户可以启动他们的计算机。老硬盘上的操作系统虽然被破坏了,但是数据还是完好无损的。因此,用户可以通过这个办法挽救他们的关键数据。最后,被感染的硬盘交由专门的部门来处理。
我们还创建了一个紧急事件服务台,它大约运行了10天。在病毒剿灭行动最后,我们统一设置了桌面计算机设置,使它可以很容易地被服务器端管理。
这次危机使我们意识到,我们需要服务器级别上的工具。它可以确保,一旦一个受感染的计算机被监测到,它可以很轻松有效地被从网络中隔离出来。同时,我们也制定了策略,来限制用户对USB设备和互联网的访问,以减少病毒进来的途径。
|