本文將深入說明VMware Aria Operations的運用實戰,並分享vSAN故障排除來做為實例,還會介紹如何善用自動化中心,解決平日維運中各類與資源回收、規模最佳化以及開關機、重新啟動虛擬機器等人工操作的需求,藉由自訂範圍、條件以及排程來自動完成。
近兩年,科技界最火熱的話題就是人工智慧(AI),雖然AI應用所涉及的領域非常廣泛,但對IT人員而言,沒有任何的應用比協助做好平日的維運工作更加重要。想想看,若AI應用在IT維運的工作中,究竟要如何協助IT人員減輕負擔呢?想必不外乎是問題預測分析與自動化管理。
舉例來說,在VMware vSphere的維運過程中,監管系統能夠根據目前使用量的趨勢來自動示警vSAN的儲存空間即將在幾天後滿載,讓管理員可以預先做好準備措施,例如預先採購好要擴增的實體磁碟。在自動化管理方面,為了讓虛擬機器運行的效能維持順暢,以及去除資料存放區內不必要的檔案,管理員肯定希望能夠有定期自動清理虛擬機器快照的功能。
其實,VMware Aria Operations的基礎能力便可監管整個組織的vSphere架構,並且能夠根據地理位置來監測所在地區的整體運行狀態,例如可以從「多雲概觀」檢視頁面中,得知目前位於台灣高雄市的vSphere運作狀態,如圖1所示。
想要從地理位置中快速檢視相同SSO網域、不同SSO網域vCenter的整體運行狀態,只要預先設定好各個雲端帳戶對應的地理位置即可,這對於擁有數以千計虛擬機器管理需求的大型組織來說相當方便。而進階的整合管理,甚至於可以連接公有雲的VMware Cloud、Azure、Google Cloud、Oracle Cloud。
監視ESXi主機運行
有了VMware Aria Operations多雲端概觀的上帝視角後,IT部門就能夠快速檢視到任一營運處或分公司的vSphere基本運行狀態。接下來,繼續深入任一地理位置中的vSphere架構,來進行vCenter與ESXi主機的各項狀態的檢視。
如圖2所示,開啟vCenter節點的「摘要」頁面,就可以得知旗下叢集、ESXi主機、虛擬機器、資料存放區的數量以及vCenter Server版本資訊。在「作用中警示」區域內,則可以得知目前已發生的各類警示數量,分別有嚴重、急迫、警告以及資訊四種類型,其中嚴重與急迫的警示務必要優先查看與處理,因為它分別代表著已經發生以及即將發生的故障問題。
接著,可在「取用者」區域中查看全部虛擬機器的數量,以及這些虛擬機器目前總耗用的CPU、RAM以及儲存區的資源量。在「提供者」區域中,則可以查看ESXi主機數量,以及相對所耗用的資源量。
另外,在叢集資訊的部分必須特別留意目前剩餘容量以及剩餘時間,務必要避免發生像範例中的0%窘境,而應當是在剩餘容量低於30%或剩餘時間低於30天,就應該立即擴增或清出更多可用容量,才能夠避免嚴重的警示出現。最後,在資料存放區的清單中,可以檢視到每一個資料存放區的容量、虛擬機器數量以及剩餘容量等資訊。
接下來,繼續進入到vCenter旗下的任一ESXi主機的「摘要」檢視。如圖3所示,在此除了可以查看到這台ESXi主機的版本資訊、CPU以及記憶體的大小外,同樣也能檢視到目前四種作用中警示的數量,在此範例中便可以看到其中的一項「嚴重」警示,所指的即是下方的「剩餘時間」與「剩餘容量」皆已用盡。至於完整的資源使用情形,則可以到「使用量」區域內查看詳細數據。
在ESXi主機的運行效能方面,可以從「效能」區域中查看到各項數據的表現,包括取用者最差CPU就緒、取用者最差記憶體爭用、取用者最差磁碟延遲、捨棄的封包數、有記憶體爭用的取用者、CPU就緒的取用者。
在連線的可用性診斷部分,建議啟用「Ping統計資料」的監控功能,就可以隨時知道Ping連線回應時的上限與平均值的延遲時間。關於此主機的完整硬體、網路以及儲存區的配置,可以查看「組態」中的詳細資訊。
對於ESXi主機運行的效能分析,可以開啟「度量」頁面,這裡除了有「效能」節點可以觀察相關取用者的使用狀況外,也可從其他節點來查看主機在各個面向的效能表現,包括CPU、磁碟、磁碟空間、系統、網路以及記憶體等等。
監視虛擬機器運行
看完有關於ESXi主機的運行狀態後,接下來說明虛擬機器的運行。
如圖4所示,在虛擬機器的「摘要」頁面中,可以得知此虛擬機器的電腦名稱、作業系統版本、IP位址、虛擬CPU數量、記憶體大小、磁碟空間以及VMware Tools版本資訊。
接著,同樣也能檢視到目前四種作用中警示的數量,以及預測可用資源的剩餘時間與剩餘容量。在此範例中,系統是自動以最有可能受限的CPU資源來顯示,當呈現的結果剩餘時間大於1年,且剩餘容量也大於50%以上,即表示此虛擬機器的資源使用狀況是無後顧之憂的。
接下來,進入到此虛擬機器的「效能」檢視節點。在此可以區分成「取用者」與「提供者」兩大類別,前者為存取同樣資源的虛擬機器分析,包括儲存區重量級、客體作業系統效能分析、虛擬機器使用量、虛擬機器效能以及虛擬機器爭用等等。至於後者,則是指提供給此虛擬機器的相關物件,包括ESXi主機、網路、儲存區等資源的用量分析。
在「效能」→「虛擬機器使用量」節點的「虛擬機器尖峰使用量」區域中,可以查看各個虛擬機器的各項資源使用量,若發現某一個虛擬機器的資源配置需要調整,或是進行移動、暫停、重新開機等操作,只要在選定虛擬機器後再點選齒輪小圖示即可。
舉例來說,先針對目前資源吃緊的虛擬機器執行「設定虛擬機器的CPU計數與記憶體」,然後再輸入所要配置的CPU數量和記憶體即可。不過,必須注意的是此項操作若沒有預先啟用熱新增(Hot Add)功能,則該虛擬機器需要在完成配置修改後重新開機才能生效。
當ESXi主機上的資源不足以因應虛擬機器的使用量時,將會在「所有警示」頁面中出現類似如圖5所示的警示訊息,在此範例中可以發現目前VMware Aria Operations虛擬機器所在的ESXi主機,已沒有足夠的記憶體資源來提供給它,這將會降低此系統運行效能與穩定性。
監視vSAN叢集運行
VMware Aria Operations不僅可以監視vCenter、ESXi主機以及虛擬機器的運行,也能夠監視vSphere叢集的運行,包括vSAN ESA與vSAN OSA架構的健康狀態。如圖6所示,在vSAN Cluster的「摘要」頁面中便可以得知目前所監視的是一個採用4顆ESA磁碟的vSAN架構,其中空間效率的配置方式選擇了儲存區原則管理的壓縮設定,目前叢集中共有3台ESXi主機、1台虛擬機器以及2個儲存集區。
接著,根據目前系統的診斷結果,已預測vSAN現行的儲存空間,雖然還有剩餘80%可用容量,但實際上若依據此叢集資料量的成長速度,卻只剩餘50天的可用量,因此才會出現嚴重的警示訊息。對於這樣的情境,其解決方案只要添加更多的ESA磁碟來完成擴增即可。
在「使用量」區域中,則可以查看到各項與vSAN相關的使用量數據,包括IOPS總計、輸送量總計、保留用於重新同步的位元組、最大ESA磁碟IOPS。而在「爭用」區域內的各項數據,則是越趨近於零即表示vSAN的健康狀態與效能表現更好,例如其中「ESA磁碟延遲上限」的數值若是越高,便意味著磁碟的效能欠佳。
針對vSAN ESA的效能狀態,可以進一步開啟「效能」→「提供者」節點,並根據檢視需求來選擇ESXi使用量、ESXi爭用、vSAN ESA效能、vSAN OSA效能、vSAN檔案服務、叢集使用量、叢集效能、叢集爭用、網路效能或資料存放區效能。
在「vSAN ESA效能」頁面範例中,如圖7所示,可以查看到各種延遲的燈號,包括虛擬機器磁碟延遲、實體磁碟延遲、讀取延遲、寫入延遲等等,只要不是呈現紅色的燈號警示,就表示目前相關的I/O效能是沒有問題的。
不過,在「計算和網路」區域內,可以看到目前vSAN的Portgroup捨棄封包的比例高達8.%,以至於出現紅色燈號的警示,這意味者此網路流量目前正處於壅塞狀態,會造成此問題的主要原因是因為目前所部署的測試環境並非是使用符合vSAN要求的網路頻寬所致。
接下來,進一步開啟vSAN ESA的「儲存集區」清單。如圖8所示,在這個清單中除了可以發現這兩個儲存集區目前的讀取延遲呈現過高的紅字外,在「儲存集區:爭用」區域內,也出現讀取延遲與寫入延遲的紅燈警示,在這種狀況下,通常意味著儲存區的磁碟I/O不足以因應大量的資料處理。
除了儲存集區的讀寫效能檢視外,還可以深入個別儲存集區的實體,查看每一顆實體磁碟的I/O表現。如圖9所示,這包括對於每一顆實體磁碟的匯流排重設次數、終止的命令參數以及壅塞值等數據,當數值越高,表示效能表現越差。另外,在「實體磁碟:爭用」與「實體磁碟:使用量」兩個區域中,也可以藉由相關數據的統計與燈號來得知實體磁碟的效能狀態。
在「報告」功能方面,無論是針對vCenter、ESXi主機、虛擬機器或叢集,皆有提供手動與排程產生相關報告的功能。如圖10所示,只要在「報告」→「報告範本」頁面中,選定一個想要查看報告的範本並按下滑鼠右鍵,即可選擇執行、排程、編輯、刪除、複製以及匯出等功能。值得注意的是,這裡所提供的每一項報告範本,在清單中除了名稱外,皆有完整的說明、主體、產生的報告數量、排程設定、上次修改時間、上次執行以及修改者等資訊。
圖11所示便是手動產生的一份「使用量報告-資料存放區」,其主要針對的目標物件便是vSAN Cluster,在這份報告的封面中也一併顯示了報告產出的日期時間以及執行人的帳號。
開啟報告內容後,可以查看到所有與此vSAN Cluster相關聯的資料存放區,並且會呈列每一個資料存放區的名稱、類型、是否為本機資料存放區、容量總計、使用量百分比、讀取IOPS(尖峰)、讀取IOPS(平均)、尖峰IOPS(尖峰)、寫入IOPS(平均)、讀取輸出量(MBps)(尖峰)、讀取輸出量(MBps)(平均)、寫入輸出量(MBps)(尖峰)、寫入輸出量(MBps)(平均)等效能數據。
雲端Proxy部署
如果想要對於第三方的應用程式與服務進行運行監視,只要在現行的VMware Aria Operations架構中部署雲端Proxy,並且對於所要監視的Guest OS安裝Telegraf代理程式即可。接下來,就來完成雲端Proxy的部署。
首先開啟vSphere Client網站,並在選定的ESXi主機或叢集節點上按下滑鼠右鍵,然後點選快速選單中的【部署OVF範本】。在「選取OVF範本」頁面中,先選取「本機檔案」選項再按下〔上傳檔案〕按鈕,然後挑選準備好上傳的範本檔(例如vRealize-Operations-Cloud-Proxy-8.16.1.ova),並按下〔下一頁〕按鈕。在「選取名稱和資料夾」頁面中,可以設定準備建立的虛擬機器名稱與位置,然後按下〔下一頁〕按鈕繼續。
在「選取計算資源」頁面中,確認所選取的叢集或ESXi主機,其中若是選擇叢集,則該叢集必須已事先啟用DRS功能才行。無論是選擇叢集,還是ESXi主機,只要在「相容性」區域中出現「相容性檢查成功」訊息,即可按下〔下一頁〕按鈕。
在「檢閱詳細資料」頁面中,如圖12所示,可以得知目前準備部署的雲端Proxy版本與大小,其中後續若選擇精簡佈建,只需1.4GB的可用空間,但若選擇完整佈建,則需要至少84GB的儲存空間。最後,按下〔下一頁〕按鈕。
在「組態」頁面中,可以根據現行的架構規模來選擇所要部署的組態大小,分別有「Small Clod Proxy」與「Standard Cloud Proxy」。在此以選擇「Small Clod Proxy」為例,因為它足以運用在高達8千台虛擬機器的作業環境中,而所需要的基本資源配置是2顆vCPU以及8GB的記憶體即可,按下〔下一頁〕按鈕繼續。
在「選取儲存區」頁面中,如圖13所示,除了選擇準備用來存放虛擬機器檔案的資料存放區外,建議將「選取虛擬磁碟格式」設定修改為「精簡佈建」,如此一來,初始便只需要占用1.4GB的儲存空間,再按下〔下一頁〕按鈕。在「選取網路」頁面中,則選擇可與VMware Aria Operations虛擬機器連接的目的地網路,並按下〔下一頁〕按鈕。
如圖14所示,在「自訂範本」頁面中,首先必須在「Unique Registration Key」欄位中貼上註冊金鑰,而這一串金鑰必須從VMware Aria Operations管理網站上取得,這部分可以直接先參考圖16步驟說明。接著,依序完成識別名稱(例如CloudProxy)、時區、網路Proxy位址設定(選用)、IPv4網路位址設定。按下〔下一頁〕按鈕,確認上述設定皆無誤後,再按下〔完成〕按鈕。
完成雲端Proxy的部署後,便可以開啟此虛擬機器的電源。如圖15所示,便是雲端Proxy系統主控台,在此頁面中除了可以查看到此系統的IP位址外,也能夠得知是否有設定與網路Proxy主機連線,以及是否已經連接VMware Aria Operations。
接下來,開啟VMware Aria Operations管理網站,並點選至「資料來源」→「雲端Proxy」頁面。在預設狀態下,不會有任何可用的雲端Proxy,點選「新增」。在「新增雲端Proxy」頁面中,如果尚未部署雲端Proxy,如圖16所示,便可以按下〔下載雲端PROXY OVA〕按鈕來下載最新版本的OVA檔案進行部署。
緊接著,可以決定是否要啟用「資料持續性」功能,建議啟用此功能以確保當雲端Proxy在無法與VMware Aria Operations連接時仍可以維持正常運行。接著,還必須複製登錄機碼至圖14步驟的「Unique Registration Key」欄位中才算完成設定。
一旦VMware Aria Operations與雲端Proxy除更連接時,在「雲端Proxy」清單中,便可以查看到剛剛所新增的雲端Proxy設定,目前正處於「線上」狀態,如圖17所示。在此仍可以繼續新增更多的雲端Proxy設定,以因應來自不同網路的探索需求,並且對於各自的雲端Proxy設定,決定是否要「啟用資料持續性」功能。
當成功完成雲端Proxy的安裝與連接一段時間後,可以從「儀表板」中開啟「服務探索」→「服務關聯性」頁面,如圖18所示來查看目前所有探索到的服務,以及每一項服務所關聯的內容。例如,在這個範例中選取「MS-SQL DB」服務後,便可以立即得知此服務所使用的連接埠、類別、安裝路徑、版本以及PID等資訊,並且也能查看這項服務正在哪一個虛擬機器的Guest OS中運行。
緊接著,點選至「虛擬機器關聯性」頁面。如圖19所示,在此可以發現當選取ERP這個虛擬機器時,在下方的服務清單中便出現了「MS-SQL DB」,而在右方的「所選虛擬機器的節點關聯性」區域中,則是完整出現與此ERP虛擬機器所有關聯的物件,包括ESXi主機、資料庫服務、作業系統以及vSAN資料存放區。
管理Telegraf代理程式
僅是透過雲端Proxy功能,探索到所有vSphere架構下的相關應用系統與服務仍是不夠的,以Microsoft SQL Server為例,若想要更深層地進行監視,必須在它所屬的Guest OS中安裝Telegraf代理程式,這樣才能進一步達到以下的監視功能:
‧提供7個全面監控的儀表板,包括SQL Server執行個體的運行狀態與效能表現,其中效能數據方面分別有索引性能、資料庫成長、磁碟容量等等。
‧提供30多種針對關鍵和警告條件的詳細警報和通知
‧收集超過250種以上的資源指標
‧提供對連接限制、CPU需求、記憶體使用和磁碟容量等等的容量定義。
‧呈現從VMware虛擬機到SQL Server執行個體與Always On可用性組的外部關係
接下來,展開至「應用程式」→「管理Telegraf代理程式」頁面中,並在選定虛擬機器後再點選「代理程式動作」選單下的【安裝】,如圖20所示。
緊接著出現「正在安裝Telegraf代理程式」頁面,由於目前只有一台雲端Proxy,因此在選取「沒有高可性的雲端Proxy」後再按下〔完成〕按鈕。如圖21所示,在「管理代理程式」→「選取選項」頁面中,選擇連線登入此虛擬機器Guest OS的驗證方式,若想要採用自行手動輸入使用者和密碼的方式,可以在選擇「輸入虛擬機器認證」並按下〔下一步〕按鈕後,再輸入管理員的帳號與密碼即可,設定完成後,按下〔下一步〕按鈕。最後,在「摘要」頁面中點選〔安裝代理程式〕。
當虛擬機器完成Telegraf代理程式的安裝後,在「管理Telegraf代理程式」頁面中,便會看到「上次作業狀態」欄位中出現「安裝成功」的訊息。接下來,展開至「應用程式監控」→「Telegraf探索到的Windows作業系統」頁面,如圖22所示,在此除了可以查看到CPU與記憶體的各項數據表現外,還能夠看到Windows記憶體速率的各項數據,包括Page Faults/s、Cache Faults/s、Transition Faults/s等等。而畫面下方,還可以看到Windows各個磁碟分割區的讀取、寫入、佇列讀取與寫入的延遲狀態。
接下來,從「物件瀏覽器」展開至「服務類型」→「MS-SQL DB」節點頁面,可以查看有關SQL Server的運行狀態,如圖23所示,若有出現相關警告等級以上的事件,將會出現在下方的警示清單中,並且也標示警示的內容、類型、時間以及建議的修正的說明。
vSAN故障排除實例
VMware Aria Operations不僅可以用來監視vSphere與第三方應用系統的運行,還能夠協助IT迅速完成故障排除,因為在它的管理網站中能夠顯示所有的警示,並且將重大的警示透過Email等方式發送給管理人員。
如圖24所示,在「疑難排解」→「警示」範例頁面中,可以發現目前出現好幾條與vSAN相關的嚴重警示,其中一條警示顯示了「vSAN延伸叢集未包含有效的見證主機」訊息,接下來,一步一步進行此故障的排除。
當開啟上一個步驟的嚴重警示詳細內容後,便可以在「建議」區域中,如圖25所示查看到「若要疑難排解此警示,請參閱VMware KB2130585」超連結訊息,點選此連結將會開啟VMware相對的知識庫網站。
如圖26所示,在「vSAN Health Service - Witness host not found」知識庫頁面中,將可以查看到造成此故障的原因、解決方法以及適用的VMware vSAN版本。接下來,就按照此知識庫的步驟說明來嘗試解決這項問題。
首先,透過SSH Client工具遠端登入到vSAN叢集中的任一主機,然後如圖27所示執行「cmmds-tool find -t NODE」命令參數,查看目前vSAN叢集主機的健康狀態。若執行結果中的每一台叢集節點皆出現Health:Healthy,即表示目前的vSAN叢集主機皆處於健康狀態。
另一種檢查方法一樣是透過SSH Client工具,分別遠端登入到每一台vSAN叢集主機,如圖28所示,再各自執行「esxcli vsan cluster get」命令參數,便可檢視到目前vSAN的架構類型、此ESXi主機於vSAN叢集中所扮演的角色,以及本機節點運行的健康狀態。
接著,在vSAN叢集的任一主機中,執行「esxcli vsan health cluster list」命令參數來查看vSAN叢集的健康狀態明細。如圖29所示,可以查看到其中有許多項目的檢測結果已經出現「red」而不是「green」,表示相對項目的測試是有問題的,包括主機的網路連線問題、資料庫狀態等等,必須解決後才能夠恢復vSAN的整體健康狀態(Overall Health)。
既然vSAN雙節點叢集的兩台ESXi主機都沒有問題,那麼接下來要進一步檢測vSAN見證主機。首先,透過Ping命令測試一下此主機是否有正常回應。
發現vSAN見證主機網路沒有回應後,此時若使用SSH Client嘗試進行連線也是無法成功的,因此開啟vSphere Client網站來查看此主機的狀態。如圖30所示,在vSAN叢集的「摘要」頁面中,會發現目前出現「找不到見證主機」的錯誤訊息。
接著,必須解決找不到見證主機的原因,可能是主機已關機或網路斷線所致,一旦排除後,便可以使用SSH Client連線到見證主機,然後執行「esxcli vsan cluster get」命令參數,查看目前的狀態是否正處於「HEALTHY」。
上述有關vSAN的故障案例,一旦確認見證主機已處於「HEALTHY」狀態,就可以完成此故障問題的排除。此時,若再回到VMware Aria Operations管理網站的「所有警示」頁面中,如圖31所示,則會發現剛剛所有與vSAN相關的警示,由於偵測到問題已被排除,因此自動解除這一些警示的顯示。
自動化中心
面對vSphere架構下大量虛擬機器的維護任務,其實其中有許多的任務並不一定得由管理員來親自監視與操作,可以交由VMware Aria Operations幫忙定期檢查與操作,像是快照的移除、資源的修改、刪除閒置的虛擬機器、重新開機、關閉電源等等。
上述這一項好用的IT小幫手,就在「自動化中心」功能頁面中。如圖32所示,在此行事曆中可以查看到所有已排定的自動化工作,並且能夠在此頁面新增工作、查看報告、歷程記錄。
接下來,就實際演練一個自動化工作的配置,其任務是定期檢查所有Windows客體作業系統虛擬機器的快照,並且自動刪除這些快照。在此準備一個如圖33所示的ERP虛擬機器,並且已經在此虛擬機器完成二次快照的建立。
緊接著,在「自動化中心」頁面中點選「新增工作」,在「建立新工作」頁面中點選「回收」。開啟「建立新工作 - 回收」頁面後,如圖34所示,先在「回收資訊」頁面中輸入名稱與說明,再選取「動作組態」中的「刪除舊快照」,以及設定刪除快照的基本準則,例如根據快照存留期或快照大小等條件組合,最後按下〔下一步〕按鈕。
在「選取物件」頁面中,選擇自動化中心檢查的範圍,例如挑選資料中心、vSAN叢集或ESXi主機,當然也可以是整個vCenter。完成選取後,按下右下方的〔預覽範圍〕按鈕,查看範圍內的虛擬機器清單。確認無誤後,按下〔下一步〕按鈕。
在「篩選準則」頁面中,則可以設定篩選虛擬機器的條件,並且能夠新增多項準則,且每一項準則都可以選擇使用度量、關聯性、內容、物件名稱或是標記,來進行相關欄位值的條件比對。如圖35所示,在此選擇「內容」類型,並在比對的部分選擇「Guest Info|OS Name」欄位值必須包含「Windows」,如此一來,便可以滿足只針對客體作業系統為Windows的虛擬機器,再按下〔下一步〕按鈕繼續。
如圖36所示,最後在「排程」頁面中自訂開始日期、時區、開始時間、週期、執行間隔以及結束日期,其中若無設定結束日期,即表示所指定的任務將根據排定的日期時間無限期地執行下去。再按下〔下一步〕按鈕繼續。
再次回到「自動化中心」首頁,如圖37所示,將會看到剛剛所建立的「刪除舊快照」排程任務。在選定的任一任務上按下滑鼠右鍵,然後點選快速選單中的「預覽」超連結。
緊接著,如圖38所示,在「預覽自動化群組」頁面中就能查看到目前已滿足所設定範圍和篩選準則的虛擬機器清單,並且得知一旦成功執行任務後所能夠回收的磁碟空間大小。
當自動化中心所排定的任務運行一段時間後,無論所執行的任務成功與否,都可以在「歷程記錄」頁面中查看各項任務的執行狀態與詳細資料。如果歷程記錄的資料相當多,也可以透過輸入關鍵字進行篩選。
<本文作者:顧武雄,Microsoft MVP 2004-2016、MCITP與MCTS認證專家、台灣微軟Technet、TechDays、Webcast、MVA特約資深顧問講師、VMware vExpert 2016-217、IBM Unified Communications/Notes/Domino/Connections Certified。>