> 專題報導

vSphere 6.7虛機熱備援　災備全自動恢復運作

在上期文章已介紹了如何從無到有地部署一個VMware vSphere 6.7的虛擬化基礎運作環境，這回將繼續在這個基礎上完成一個具備虛擬機器熱備援能力的架構，以便在發生ESXi主機單點失敗時，關鍵的虛擬機器能夠在最短的時間內全自動化地在其他可用的ESXi主機中恢復運作。

想要讓關鍵的IT應用服務提供絕佳的運作品質，從伺服器主機的電源、網路、硬碟、I/O介面，一直到作業系統層面，樣樣都需要有備援的能力，才能夠全面預防可能的單點故障問題，而導致重要服務停擺。此外，在備援的方式中無論是硬體還是軟體層面，還可以再區分為熱備援與冷備援。

例如，在常見的磁碟陣列（RAID）規劃中，為了避免單一硬碟故障造成系統損毀，都會選擇使用RAID 1、RAID 5、RAID 6、RAID 10等等的架構，但這樣還不夠，最好還得設定至少一顆硬碟屬於Hot Spare功能，而這顆硬碟由於平常不會使用到，因此看似有點浪費，但它正屬於熱備援的用途，在上述任一RAID架構中，一旦發生某顆硬碟故障，就能夠自動遞補上去，而不需要人工介入，這便是屬於熱備援的機制。

至於冷備援呢？簡單來說，就是在磁碟陣列架構中，少了Hot Spare功能硬碟的準備，因此在發生像是RAID 5中的任一顆硬碟故障時，必須自行手動替換硬碟，而過程中由於可能還會需要等待漫長的採購時間，可以說緩不濟急的風險相當大。不過，雖然熱備援是維持IT正常營運的重要環節，但可別忘了，冷備援、資料備份的準備也同樣是相當重要的，因為只是因應的災害情境不同而已。

回到vSphere虛擬化架構的系統層面，要如何為虛擬機器建立一個具備熱備援機制的運作架構，以因應ESXi主機發生單點失敗的容錯問題呢？

其實做法並不難，因為它就如同絕大多數的系統備援架構設計一樣，不外乎是需要主機間共享的網路儲存設備，來建立一個能夠主機之間相互備援的叢集（Cluster）環境，只是在最新的vSphere 6.7版本中該如何完成這項任務呢？接下來，就跟著本文的實戰步驟親自動手完成這項全新的學習！

管理網路的準備

在啟用vSphere虛擬機器的熱備援功能之前，必須優先避免兩項經常會犯的錯誤，也就是說，若貿然啟用，便會發現在叢集（Cluster）熱備援架構下的每一部ESXi主機摘要頁面內，如圖1所示出現了「此主機的vSphere HA活動訊號資料存放區數目為0，其少於必要數目：2」以及「此主機目前沒有管理網路重複」兩個警示訊息。上述這兩項警告訊息，儘管不會讓熱備援功能無法運作，但卻會造成日後永續運行目標上的隱憂。

▲圖1 出現ESXi主機警告訊息。

首先，為了確保在vSphere HA的運作中，可以精準監視到叢集中每一部ESXi主機的活動狀態，以便在任一ESXi主機發生沒有網路回應時，可以迅速將其上運行中的虛擬機器，改由其他活動中的ESXi主機來啟動並且恢復正常運行，這時用以儲存活動訊號資料的存放區就相當重要。即便只要一個，也能夠讓熱備援的機制正常運行，但在同時提供兩組活動訊號資料存放區的架構下，肯定可以讓意外發生的可能性降至最低。關於此問題的預防方法，將留待後續有關「共享儲存設備的準備」和「iSCSI儲存區連接配置」的議題中再來詳解。