2013年2月25日,不少IT人員陷入了熬夜苦戰之中,因為一場例行性的機電維護保養,配合廠商檢修的過程中發現了部分機電設備異常,居然連帶引起電池室起火悶燒產生濃煙,因而造成企業網路斷線大災難。
2013年2月25日,不少IT人員陷入熬夜苦戰中,因為從當天下午開始,許多企業重要的營運服務突然中斷不能使用,使用者抱怨連不上網路的客訴也急劇增加。而這一切的導火線則起因於台北市內湖區陽光街的麗源大樓地下樓層的機房電力設備起火。
很難想像,光是一棟建築物發生火警,就足以影響眾多企業網路與營運受挫,除了位於該棟大樓的資料中心業者是方電訊擁有許多大型代管客戶之外,起火點所在的國際網路交換中心業者數位通更是網路重鎮,由於全台九成對外海纜網路服務都經過麗源大樓,因此造成諸多災情。此次受到波及的行業從電信業者、入口網站、人力銀行、交通業、旅行社、團購網站,乃至於速食業以及遊戲業者都遭受漁池之殃,連線緩慢不說,更甚者還斷線、當機,使得網站暫停服務。
城門失火 殃及池魚
是方電訊指出,麗源大樓地下樓層起火的原因係因「數位通國際網路股份有限公司」位於其機房內的機電設施發生異常及損壞,造成其機房電力中斷。是方電訊的設施在本次事件中並無任何受損狀況發生,然而為考量整體電力供應的安全,於事件發生後主動停止供電配合消防單位進行檢測,而經過緊急搶救,整棟大樓高壓電力供應之檢測作業、各項資通訊服務平台系統運作及IDC服務樓層供電作業皆於26日凌晨完成恢復營運作業。
|
▲為了避免因為某一點發生爆炸或故障,UPS與電池室最好做到Tier4等級的實體隔間。 |
因為一場例行性的機電維護保養,配合廠商檢修的過程中發現了部分機電設備異常,居然連帶引起電池室起火悶燒產生濃煙,因而造成企業網路斷線大災難。這其中可檢討的層面相當多,從業務持續營運的角度來看,包括網路的部署、配置,IT基礎架構的備援機制、機房設施的規劃與管理、機房代管業者服務標準協定(Service Level Agreement,SLA)的承諾與執行,都足以透過此次的案例,認真地省思一番。
過舊零件起火是人禍
然而,回到事發源頭,看看事件發生原因,麗源大樓地下樓層起火之所以造成如此鉅大的影響,最終還是歸結在人為操作與管理不當的層面。根據要求匿名的知情人士指出,此次事件是數位通因為UPS發生故障,因而需要進行關電檢修,但是在重新送電的過程中,電容因為過於老舊而導致爆炸,瞬間的大電流短路,進而引起電池室起火。再加上,是方電訊的UPS與數位通的UPS設備緊連於同一個空間中,雖然是方電訊的設備在第一時間其實仍然維持正常送電運作,但基於消防灑水安全,必須停止該大樓供電,進而影響到數百家企業客戶的網路與營運服務運作。
該名人士透露,數位通的UPS電容是建置於2000年,一直延用至今已經12年,長期以來都是以線上運作的狀態檢修,此次因為UPS故障必須停電檢修,在重新送電的過程中,老舊電容無法承受瞬間開電所帶來的衝擊,因而導致爆炸。他感慨,「企業關注IT的焦點,往往聚集在資訊服務不能中斷,卻都忽略了設施安全(facility)的重要性,每年編列在機房維護管理的預算屈指可數,以為機房蓋好了就萬無一失,更常常為了省錢,忽略老舊零件汰換的必要性,真要歸究起來,算是人為操作管理不當所引起的事件。」
應正視設施安全
「居安思危,思則有備,有備無患。」透過此次案例,從中汲取經驗與教訓,進而協助企業強健整體維護、架構與管理機制,才能杜絕類似的情況再度發生。而從機房設施的規劃與管理的角度,Emerson應用工程經理陳仲倉也特別提出幾項建言,包括零件的準時汰換、實體隔間以及定期系統檢測都是企業可以重新檢視的地方。
|
▲Emerson應用工程經理陳仲倉認為,企業內部的舊有機房只要稍加改造,就能落實實體隔間,避免因為某一點發生爆炸或故障,影響所有系統服務運作。 |
他提到,就麗源大樓的起火事件來看,大概可以從幾個層面來檢視,首先零件是否過於老舊,根據他的經驗,機房的相關零件通常有使用期限,如果是電容的話,一般使用五年以上就必須汰換,由於電容的構造原理特性,長久使用下來後,很可能無法承受突然的充放電,「就會好像車子每年都要進廠保養一樣,機房設施也是如此,定期的保養與零件更換才能讓整個系統運轉無虞,否則很容易因為疏失而引發問題。」
另外,近幾年,許多機房規範一直在倡導實體隔間的概念,過去企業最常見的作法就是把UPS以及電池通通放在同一個區域,即使部署了兩套可以互相備援,也是放在同處,以便當一組設備故障時,另一組可以即時接手。「但是這個作法只能達到可維護的要求,以Uptime的標準來看,2N備援架構雖然已符合Tier3等級的要求,但當所有的設備全部都放在同一個空間內時,只要任何一台發生故障、出了事情,就很容易有連鎖反應,影響到所有的機房運作。真正避免因為某一點發生爆炸或故障,則是要做到Tier4等級的實體隔間才行。」
他提到,落實實體隔間並非一定要重建Tier4的新機房不可,事實上,企業內部的舊機房只要稍加改造,就能解決這個問題。「企業可以先謄出一個機房空間後,重新建置一套後再移轉,就是一個很好的作法。」陳仲倉強調,企業機房並不是做到永不中斷才是最好的策略,管理人員有時必須有些取捨,適度地讓系統停機一、兩天,在可接受的範圍內進行機房架構的修正,將可大幅提高機房的可靠度,確保資訊安全與保護。
最後,每年最好都要進行一次系統的檢測。「這也是為什麼設施業者在機房架構設計都要有兩路迴路,當系統要進行年度檢修時,先切換到另一路迴路,讓系統持續運作,檢修完再切換回來的原因,機房架構的運作關乎企業系統服務運行的順暢度,這些其實都是環環相扣的環節。」他說。