著眼於雲端運算的應用趨勢,國內IDC業者陸續投入資源興建大型資料中心。預計年底將於內湖區正式啟用的台灣大哥大雲端運算資料中心,在2011年初完成規畫設計時,即取得Uptime Institute Tier III的設計認證,現階段正準備Tier III的第二階段:建置認證通過後,才會正式開始營運。
負責此專案規畫與建置的台灣大哥大產品暨IDC維運部副處長陳紹元說明,Uptime Institute不僅對於資料中心規範要求堪稱全球最嚴格,且是唯一實施稽核認證的單位。由於委請Uptime Institute派專人來現場勘查與檢驗,仍存在需要改善的項目,因此正在進行最後的補強。台灣大哥大雲端運算資料中心之所以堅持取得Tier III建置認證才對外正式營運,也是為了提供客戶最嚴謹可靠的服務品質。
為下一個十年做準備
從事IT工作已近二十五年的陳紹元,在電信產業至今也有十多年經驗,從早期行動加值服務,擴大到IDC服務,如今再進化為雲端運算服務,負責維運的系統皆是對外提供服務的產品線,因此相當熟稔利用現代化IT技術來提升產品競爭力。他認為,在規畫新一代資料中心時,必須思考下一個十年的產品跟現在的差異、客戶應用需求,如此才會知道該如何設計。
其實資料中心也有使用年限。依據Uptime Institute蒐集重大事故資料研究後發現,十年以上機房的失火與斷電機率偏高,探究其原因不外乎電力設備老舊所造成。最常失火的元件首要是配電盤,其次是UPS中的電容與電池爆炸,因為這三種元件都有使用壽命,一旦超過年限而未進行更換,風險就會逐漸提高,例如可能會遇到電容值下降,在抽放電時溫度難以掌控等狀況。
|
▲台灣大哥大產品暨IDC維運部副處長陳紹元在IT產業待了近二十五年,機房維運的經驗可說相當豐富,因此堅持Uptime Institute Tier III的嚴謹規範,為雲端運算資料中心下一個十年做好準備。 |
「在美國,只要是Uptime Institute會員,當資料中心發生狀況後,會主動分享最後的調查報告,因此當會員數量夠多,事件的統計數據越可反映出實際狀況,即可經由修正機房設計規範來避免類似的事件再發生。」陳紹元說明。而Tier III的標準是在2005年才提出,是基於Tier II機房的各種事故統計所制定,不只UPS需N+1確保服務不中斷,更重要的是在設備汰舊換新時,服務亦不能中斷,才不致因延後更換而累積更多風險,導致失控。
「其實我們做IT,更要相信Log與科學數據。維運工作有個1:29:300的說法,這是源自於交通事故,也就是300次的嚇一跳,會有29次的小擦傷,其中就會有一件致命事故。重點不只在統計數據,更是提醒用路人不要小看300次的嚇一跳,若不警惕,就會發生29次的擦傷,其中就會有一件是致命事故。」陳紹元強調,要避免發生無法挽回的生命財產損失,控制點並不是1,而是300。也就是說,雖然是小細節,也必須要盡量避免發生問題。而雲端運算資料中心興建案,選擇以取得Uptime Institute Tier III認證為目標,即是藉助這套嚴謹規範,為企業用戶提供較以往更高等級的IT服務。
高等級規格源自管理
要能夠稱得上是雲端運算資料中心,陳紹元認為,至少必須在設備置換、維修時,皆不會影響服務正常運行,也就是Uptime Institute Tier III強調的可同時維修性(Concurrently Maintainable),其次是符合節能與資訊安全。
在節能方面,PUE(Power Usage Effectiveness)值可說是重要指標。陳紹元說明,PUE定義分母是有產能的IT設備用電量,分子是資料中心總用電量,因此數值必定大於1。而PUE值2.0的意思是每供應1度電用於IT運轉,但實際上IDC運轉卻需耗用2度電,因為有1度要給空調設備等周邊電力;若PUE值大於2即表示空調設備等周邊基礎所耗費的電力,其實比IT設備本身運轉的耗用量還多。
一般國內機房常見2.2以上,要降到2.0往往需改造過才有辦法達成。但台灣大哥大雲端運算資料中心的PUE值是1.5。「相較於標準PUE 2.0的用電,降低至1.5對整體用電量而言,意即可減少25%用電,降低IDC營運成本,甚至可進一步回饋用戶,依用電量來收費,用多少付多少。」陳紹元說。
至於資安方面的管控,本為IDC業者基本該有的能力。包括網路駭客攻擊事件的因應,像是近年常見的DDoS攻擊,傳統的作法是由源頭阻擋來源,但線上服務常因此被迫中斷,現在新技術的方式是導入新設備,負責偵測與辨識DDoS攻擊,並把該連線導引至另一處進行過濾,完成後才將連線請求送到伺服器,也就是洗頻寬(Clean Pipe)機制,如今已被納入雲端運算機房的服務項目。
麗源火災後引起關注
雲端運算資料中心可說是IDC的自然演進。但畢竟興建專案投入50億元之多,又是依據Uptime Institute Tier III高規格設計,陳紹元不諱言,其實在2011年時市場並不看好,同業皆抱持觀望態度,因為認為沒市場,不足以投入如此龐大資源興建雲端運算資料中心,當時的確承受不小壓力。直到今年麗源大樓失火案發生後,才大量受到關注與期待。
由於現在的機房大多是商辦大樓改建,配電室通常是建置在地下室,麗源大樓自然也不例外。問題是,發電機在地下一樓,地下二樓是台電受電室,當地下二樓失火產生濃煙,發電機等於就在失火區域,為了防止火勢可能延燒,消防隊到現場觀察後,必須要求所有發電設備全數停止。
這個問題在十年前根本沒有人想像得到,所以此種配置相當普遍,要避免出問題,必須在建物設計時期就被納入考量。
風險不必然會發生,但管理要投入成本就會令人猶豫,可是當有事件發生,「從風險管理變成危機管理時,再回頭看就會知道值得,因為損失絕對高過這個成本,」這也就是他規劃雲端運算資料中心的理念,致力於為用戶減少「嚇一跳」的可能性,最終得以避免出現任何的致命傷。