自從日本3月11日在宮城縣東方外海發生規模9.0大地震,並引發海嘯而導致福島產生疏散撤離範圍達到20公里的核災事件以來,各方焦點關注。對於企業來說,此次事件引發了另一個思考層面:當天然災變突如其來,且擴及到「城市」等級時,企業是否已經做好準備,仍可以維持不中斷的永續營運?
原因就在於,此次事件並不是像火災或淹水,可能僅僅是一棟建築物或是一小個區域受到影響,當限電的地區從台北擴及到台中時,位於桃園的備援中心能不能運作就是一個問題。即使能夠運作,企業是否已經做好立刻轉換上線的準備,也還是個未知數。
回復等級與預期功效的落差
過去因應天然災變,大多數企業的災害備援計畫著重在技術面,不管是在公司附近設置災難備援中心,或至少針對核心系統訂定災難備援機制,過去這些似乎足以應付系統中斷的措施,在日本福島核災發生之後,卻反映出許多的不足。這可以從兩個層面來探討,一是地理位置問題,二是災備計畫與現實的落差。
|
▲有了日本福島核災的前車之鑑,企業在災害備援上應該擴大從城市等級的風險來進行完整考量。 |
RPO與RTO
首先從後者談起。一般來說,企業計畫災備方案會從RPO(Recovery Point Objective)以及RTO(Recovery Time Objective)兩項指標來評估。RPO指的是當災難發生時,企業可以忍受多少資料遺失,例如A服務能忍受資料遺失4小時,而B服務則是不能忍受任何資料遺失的時間,因此B服務的備援機制要比A服務來得更為即時,甚至達到與備援中心同步的狀態。
而RTO指的是當災難發生時,回復企業資料所需的時間,亦即企業要花多少時間才能重新上線。目前這個部分可以細分為七個等級,等級1的回復時間最高,可達72小時以上。等級2的回復時間是大於24小時。等級3是小於24小時,以此類推一直到等級7,而回復時間也從8小時、4小時、2小時、30分鐘,甚至到幾秒鐘就可以完成資料復原的動作,有時連使用者都感覺不到。
演練才能確定災備的可行性
當RPO以及RTO的時間愈短,需要花費的成本就愈高。也因此,企業的設想往往是較不重要的周邊業務可以24小時以上才回復,而核心業務因為不能中斷,因此採取最高的保護策略。然而,台灣IBM全球資訊科技服務事業處總經理葉緯指出,企業的備援系統如果容量不足,就無法在關鍵時刻發揮預期的功效,等於完全沒有備援,先前的投資也全數付諸東流。「做一半與沒做是差不多的,也許企業在第一時間核心業務復原了,但是網路的連線卻是24小時才回復,因此就算核心業務可以上線運作,使用者仍無法透過網路來存取。」
他提到,災備計畫必須事先確立好核心目標後,再從IT的角度規劃,例如企業的核心目標是在30分鐘恢復運作,那麼IT的規劃也是以30分鐘回復來設計。「除了重新審視目前的災備計畫之外,演練也是必要的工作,許多回復的步驟都是確保企業能不能順利上線的關鍵,只要一個步驟的失誤,就可能導致回復失敗,千萬不要等到災難真的發生了才來執行,這樣的風險太高。」
多中心達到不停機的目標
台灣是最易受到天然災害衝擊的地區之一,根據世界銀行在2005年提出的《天然災害熱點》全球風險分析(Natural Disaster Hotspots: A Global Risk Analysis)報告指出,台灣是世界上最易受到天然災害衝擊的地方,內容提到台灣約有73%的人口居住在三種以上災害可能衝擊的地區。由此可知,事先完整的防範與未雨綢繆是身處於台灣的企業事先一定得有的準備。
也因為如此,企業往往會進行更完善的規劃,例如在資料中心以HA機制保護,然後再選擇一處地點進行異地備援,然而不管選擇的是同一棟建築內打造,或者是在同一個區域內部署異地備援中心,遇上了日本東北地震與核災這種大事件,英雄還是無用武之地。
「這也是我們會建議至少要雙中心運作的原因。」葉緯表示,雙中心一定會有成本上的投資,但是可以透過技術來將這些已投資的成本更善加的利用,過去直接建置傳統1比1異地備援,常見的情況是機器大多閒置,且只能因應特定種類的事故,投資效益不彰。但是雙中心在技術上可以做到將同域備援中心的系統升級,從過去僅在待機狀態,提升為正常開機狀態,因此部分交易可移轉到備援中心的系統去執行,讓備援系統也變成生產系統。
他建議,這座異地備援中心最好是建置在100公里以外,如此才能應對大區域或大規模的災變,「地點的考量很重要,例如要選擇地震風險最低的地區,最好也不要在洪水易氾濫的平原區內,鄰近不要是軍事基地或兵工廠,核電廠當然也要避免,最後還要是交通便利,萬一人員沒有辦法進入到備援中心,要回復其實也很難。」
根據這些條件,除了本島南部之外,離島也是可以選擇的地點,NetApp台灣技術總監姜群指出,在他的經驗中就曾有企業將異地備援中心建置在金門地區。葉緯也提到,分別建置於兩岸的作法也是可行。
從城市等級的風險考量
因為日本福島核災、海嘯而帶來的斷電以及影響範圍,超乎了過去對於因為地震影響而設計的想像,也因為如此,企業在災害備援上更應該有不一樣的思維。
一如戰國時代馮諼為了報答孟嘗君的知遇之恩,特地為他尋覓了三處安身之處,現今的企業為了零停機的目標,也應該擴大風險考量,以確保機房機料的安全與完整,尤其活生生的例子就在不久前發生,企業應該謹記日本經驗,事先做足準備。