新冠肺炎(COVID-19)衝擊全球,企業的關鍵基礎設施同樣也會面臨挑戰,尤其是在疫情加速企業數位化腳步的情況下,一旦資料中心維運人員生病或是隔離缺勤時,如何維持可用性,提供給IT基礎架構穩定可靠的環境,將成關鍵課題。
新冠肺炎(COVID-19)衝擊全球,不僅危害健康安全,同時也影響產業經濟活動,為了確保員工健康以及業務持續營運,許多企業紛紛將焦點鎖定在遠距辦公或是在家工作,期能夠構建出照常營運的環境與客戶體驗,以減少疫情帶來的影響。然而,對於企業而言,風險仍不只於此,企業的關鍵基礎設施同樣也會面臨挑戰,尤其是在疫情加速企業數位化腳步的情況下,一旦資料中心維運人員生病或是隔離缺勤時,如何維持可用性、不損及IT基礎架構環境的穩定可靠,就會是一個關鍵課題,即便疫情減緩,在新興技術包含人工智慧、機器學習、大數據以及雲端等推波助瀾之下,新商業營運模式也將加重對資料中心的仰賴程度。
從策略到行動
近期,Uptime Institute也因應疫情發展,發布一份關鍵基礎設施指南「Pandemic planning and response: A guide for critical infrastructure」,內容指出,企業首要的第一步,也是不可缺少的步驟,就是制定具體的防範方針與應用計畫。若是沒有制定新計畫,也可以將過去為了防範斷電、火災、惡劣的氣候以及潛在破壞事件所制定的緊急計畫拿來修改使用。而計畫的重點,主要包含了員工、合作夥伴與客戶的健康安全;業務持續營運;並且需要遵守公共衛生以及政府機構所發布的準則與規定。
Uptime認為,COVID-19的防範計畫應該要制定分級應對措施,清楚確定每一個級別上應該要採取的行動,以及在什麼情況下應該要觸發到下一級別。一般來說,通常會定義3到5級的應變計畫,最壞的打算是,企業關鍵應用程式與作業必須要轉移到備援機房。而每一個級別都要制定可接受的停機時間以及遇到中斷或故障時的回應流程,包含關鍵人員與候補人員的指定。
在疫情期間,保護員工的第一步,就是確保安全的工作環境,因此所有流程以及檔案都必須具備完整性與準確性。同時也要審查災難復原計畫、標準作業流程(SOP)、維運作業流程(MOP)以及緊急作業流程(EOP),並且依據現況和預期的可能情況進行必要的更新。此外,亦必須考慮對供應商進行遠端培訓,以預防當機房管理人員嚴重缺工的情況下,還能有供應商能夠執行基本的作業。
另外,也要加強內務管理的清潔措施,並且嚴格控制基礎設施的人員進出,例如禁止計畫外的訪客、填寫健康調查問卷等等;在可能的情況下,延遲所有非必要的維護,如果可以,在疫情風險降低後,重新安排高風險測試,例如發電機負載測試。根據Uptime Institute的研究,有超過三分之二的資料中心或多或少都採用外包服務,因此也必須與外包業者進行密切的協調,確保維運人員不會因為互相矛盾的建議或政策而混淆。完整的策略與行動建議,讀者可參考Uptime Institute官網(https://pse.is/S4E6N),下載完整版閱讀。
DCIM助力遠端管理
而除了政策與措施之外,善用管理工具也能有所助益,Sunbird產品管理與行銷副總裁James Cerwinski便建議企業,不妨運用資料中心基礎架構管理(DCIM)這類的軟體來因應疫情所帶來的可能衝擊。「受到疫情影響,全球有不少勞工與學生因為防疫政策而待在家中工作與學習,由於對外的互動交流甚至娛樂都是透過線上進行,使得資料中心伺服器、儲存以及網路資源需求不斷攀升,正因為如此,維持資料中心的平穩運作也比以前更為重要,效率也必須比以前更好。」他提到,為了幫助客戶渡過COVID-19,Sunbrid在早先便提供免費的教育訓練來協助企業讓資料中心達到最高的效益,「這個專案為期兩周,一天兩次與企業進行LIVE視訊教育訓練,目的就是希望協助企業維持資料中心的運作。」
根據Sunbird觀察,COVID-19在全球肆虐的同時,也為資料中心創造或加速了許多趨勢,短期明顯可見的是主機代管模式增加了,企業不再將基礎設備部署在自家資料中心,而是委由主機代管業者來代管,以減輕管理負擔;也會善用雲端遷移來減少前期硬體支出並且加快上市速度;由於需要提供更多的服務,原先規劃的電源容量可能不足,因此會針對電源容量擴充;此外,在限制人員拜訪的情況下,愈來愈多的企業也開始運用第三方管理服務,像是硬體安裝、網路優化、邊緣部署以及安全性等等;另外,也有不少企業利用DCIM軟體來確保資料中心能夠正常運行。
James Cerwinski提到,目前美國疫情仍然頗為緊張,只要能遠端工作,幾乎都會在家上班,即使是資料中心維護人員也是如此,但是還是會有一些人員需要到資料中心解決中斷排除的問題,前提是需要高階主管同意才行。在這種情況下,能不能遠端有效地管理資料中心就是一大挑戰,而DCIM正可以提供資料中心完整的可視圖,協助企業最大化資料中心的運行時間,透過相關的監控機制,在狀況出現的第一時間,便能以電子郵件通知維運/管理人員處理。
「如果沒有合適的工具,要遠端管理多個站點的電源和冷卻系統可能會很困難,Sunbird DCIM提供了一個企業級的儀表板,可在單一的畫面中顯示所有資料中心的即時電源、環境健康狀況以及事件,並且能夠進一步取得更精細的資訊。遇到熱點、電源容量不足等問題,也會發出告警,讓企業即早因應,防止突發停機的現象發生。」他繼續說明,甚至也能遠程管理整個數據中心的所有資產。Sunbird DCIM可以提供資料中心基礎架構的即時總覽,並且提供智慧化的指標分析,例如某個位置擺放了多少資產,每個應用服務的主機以及這些資產的成本等等,從而協助企業了解哪些應用程式需要最多的資源以及可以在何處提高效率。此外,也可以透過點到點電源電路的管理,幫助企業避免電源電路過載,減少延遲並快速排除故障,以減少停機時間。
其他監控的功能還包含ASHRAE溫溼度要求、斷路器狀態、溫度感測器臨界值和警報以及樓層健康地圖儀表板,可用來監控環境溫溼度是否ASHRAE標準、資料中心的溫度是否超過28℃、PDU的運作情況,以及有無熱點形成等等。James Cerwinski強調,最重要的是,DCIM的儀表板可以同時允許多人登入,可讓團隊訊息共享與協作,克服遠端溝通協作的挑戰。