vROps(vRealize Operations)輕量級儀表板能夠將企業營運服務的各項節點,透過視覺化的方式展示出來,因此企業即便僅有vSAN超融合叢集環境和軟體授權,也能透過vROps輕量級儀表板的各項分析和統計數據,來有效管理vSAN超融合叢集環境。
當企業和組織建構完vSphere虛擬化基礎架構後,隨著內部專案數量和人員持續成長,企業對外營運服務的類型也不斷改變,舉例來說,從過去僅提供網站服務,轉變為目前還必須提供智慧型手機App應用等等。
對於內部vSphere虛擬化基礎架構來說,各種工作負載和類型也不斷增加,從過去單純的VM虛擬主機運作無高可用性的應用程式,到多台VM虛擬主機協同建構高可用性應用程式,轉變成目前新興流行的容器和微服務等等。
因此,負責資料中心維運管理的IT人員倘若沒有一套功能完整且具備高彈性和支援度高的系統協助,那麼當企業的營運服務發生問題時,只能透過各種系統內建陽春的監控服務,搭配管理人員的經驗判斷來進行故障排除作業。如果管理人員經驗不足或問題牽涉範圍太廣泛,都會無謂增加故障排除時間,不僅影響使用者操作體驗,更可能擴大影響企業的公共形象及營運收入。
舉例來說,企業營運服務建構在vSphere虛擬化基礎架構之上,搭配上層運作的VM虛擬主機或容器內的各種應用程式而成,那麼當營運服務發生問題時,到底是vSphere虛擬化基礎架構發生問題所導致,例如CPU、Memory運算資源不足、Storage儲存資源不足、Network網路資源不足等等,還是上層VM虛擬主機或容器內的作業系統故障,又或者是最上層的應用程式崩潰所導致?
此時,若有一套監控工具能夠將企業營運服務的各項節點,透過視覺化的方式展示出來,如圖1所示,那麼當企業營運服務發生各種狀況時,管理人員便能透過視覺化儀表板的輔助,快速找出問題並進行故障排除作業,讓營運服務可以在最短時間內恢復正常。
然而,有些管理人員或許覺得VMware vRealize Operations監控工具,功能性太過複雜、架構太過龐大,中小型企業可能不需要這些繁雜的功能和監控項目。此時可以考慮採用本文的解決方案,在本文中將深入剖析和實作演練輕量級的vRealize Operations監控工具,並且它能夠直接整合至vCenter Server管理介面中,無須離開vCenter Server管理平台便能查看分析和統計數據,協助管理人員快速判斷問題並進行故障排除。
過去當管理人員建構vSAN超融合叢集環境後,在沒有導入其他分析和監控方案時,通常僅能採用vCenter Server管理平台中內建的效能監控工具,來查看vSAN超融合叢集的健康情況和工作負載,如圖2所示。
接下來,將實際部署和組態設定vRealize Operations within vCenter監控機制,讓vRealize Operations的分析和統計結果,直接整合在vCenter Server管理介面中,透過簡化後的vRealize Operations效能和工作負載儀表板,幫助管理人員查看vSAN超融合叢集的各種效能資訊和運作情況。為了便於說明,文章後續將vRealize Operations簡稱為「vROps」。
部署vROps環境需求
事實上,與部署vCenter Server管理平台類似的概念,管理人員可以部署不同規模大小的vROps執行個體,以便因應不同規模大小的vSphere叢集和vSAN超融合叢集。下列為部署不同規模大小vROps執行個體的硬體資源需求:
‧超小型(Extra Small):需要2 vCPU和8GB vRAM硬體資源,最多支援350個物件和100個客戶端代理程式。
‧小型(Small):需要4 vCPU和16GB vRAM硬體資源,最多支援6,000個物件和300個客戶端代理程式。
‧中型(Medium):需要8 vCPU和32GB vRAM硬體資源,最多支援68,000個物件和1,200個客戶端代理程式。
‧大型(Large):需要16 vCPU和48GB vRAM硬體資源,最多支援200,000個物件和2,500個客戶端代理程式。
‧超大型(Extra Large):需要24 vCPU和128GB vRAM硬體資源,最多支援320,000個物件和2,500個客戶端代理程式。
同時,在部署vROps之前建議先了解整體的基本運作架構,以及各項運作元件之間所使用的通訊協定、使用的連線通訊埠,如圖3所示,避免屆時部署完成後因為防火牆未允許相關協定和連線通訊埠,造成相關運作元件之間無法通訊導致錯誤,或發生未預期的錯誤情況而無法順利運作。
vCenter Server中的vROps儀表板
事實上,在過去vROps版本中,管理人員必須離開vCenter Server管理平台,額外登入vROps專屬的管理介面,並且順利通過使用者身分驗證機制之後,才能夠登入vROps查看各項效能監控數據和工作負載情況。
而現在,由於新版vCenter Server管理介面已經全面支援採用Clarity Framework打造的HTML5管理介面,所以VMware官方也針對管理人員經常需要監控的vSphere和vSAN叢集,將vROps輕量級儀表板功能直接下放至vCenter Server管理介面中,如圖4所示,幫助管理人員輕鬆查看效能數據和工作負載等健康情況。
此時,管理人員應該會有疑問,倘若在vCenter Server管理介面中,能夠透過vROps輕量級儀表板直接看到vSphere和vSAN叢集的工作負載和健康情況,那麼還需要購買完整功能的vROps軟體授權嗎?這兩者之間有何不同?
簡單來說,vROps輕量級儀表板和完整功能的vROps,這兩者之間最大的差別在於,vRealize Operations within vCenter只有提供「六個」輕量級儀表板,並且這些儀表板僅提供「深入解析」(Insights)功能,而不會提供任何「執行」(Actions)的操作,例如故障排除和修復等等,如圖5所示。
現在管理人員應該對於如何購買適當的vROps軟體授權感到好奇,那麼針對下列常見的應用情境進行說明以便清楚理解:
‧僅購買vRealize Operations軟體授權:無論購買哪種版本的vROps(Standard、Advanced、Enterprise或vCloud Suite)軟體授權,都可以直接使用vRealize Operations within vCenter輕量級儀表板。值得注意的是,在六個輕量級儀表板中有三個是針對vSAN叢集所設計,所以當環境中如果沒有vSAN超融合叢集環境時,相關儀表板將不會顯示任何數據資訊。
‧僅購買vSAN軟體授權:僅購買vSAN Advanced和Enterprise軟體授權,在初期vROps部署作業完成後,享有「60天」使用vROps完整功能的權限,經過60天試用期後可選擇額外購買vROps軟體授權,或僅使用vRealize Operations within vCenter輕量級儀表板,如圖6所示,但僅支援深入解析而不支援任何執行操作。
‧同時購買vROps + vSAN軟體授權:購買vROps Standard + vSAN軟體授權時,僅額外支援1個針對vSAN叢集的進階儀表板。購買vROps Advanced/Enterprise + vSAN軟體授權時,則額外支援4個針對vSAN叢集的進階儀表板。
部署vROps執行個體
登入vCenter Server管理介面中,依序點選「Home > vRealize Operations > Install」項目,系統會自動彈出部署vROps執行個體的互動精靈視窗。在Installation Mode頁面中,可以選擇兩種不同部署vROps的方式,選擇「Online Install」項目時,如圖7所示,稍後vCenter Server將會透過Internet網際網路,連線至VMware官方自動下載vROps安裝映像檔。
倘若vCenter Server無法連線至Internet網際網路時,管理人員必須預先至VMware官網下載vROps安裝映像檔後,選擇「Offline Install」項目,並點選剛才預先下載的vROps安裝映像檔,即可進行部署作業。
在vCenter Details頁面時,依序鍵入vCenter Server管理平台的IP位址,以及vCenter Server的管理帳號與密碼。當連線和使用者驗證資訊鍵入完畢,按下〔TEST CONNECTION〕按鈕,系統將依據鍵入的vCenter Server資訊,進行連線通訊和使用者身分驗證的動作。連線成功後,系統將會回傳「Connection to vCenter Server is validated successfully.」訊息,如圖8所示。
接著,在Environment Details頁面中,鍵入稍後即將部署vROps的VM虛擬主機名稱、選擇使用的資料中心、vSphere叢集或vSAN超融合叢集、屆時運作的ESXi虛擬化平台、部署規模大小、Datastore儲存區資源、vSwitch虛擬交換器和連接的Port Group等等,如圖9所示。 來到Network Details頁面後,鍵入部署vROps的VM虛擬主機網路組態設定,本文實作環境中採用的靜態IP位址為「10.10.75.30」,如圖10所示,並且已經在運作環境中的DNS名稱解析伺服器內,建立「vrops.lab.weithenn.org」的A Record名稱解析記錄。
在Adapter Instance Details頁面中,倘若屆時vROps執行個體要取得監控數據的vCenter Server管理平台,與剛才步驟二中鍵入負責部署vROps作業的vCenter Server不同台時,那麼可以在此階段中額外鍵入其他台vCenter Server使用者身分驗證資訊。否則,只要勾選「Monitor the same vCenter Server in Step 2」選項,如圖11所示,即可直接採用剛才已經成功通過的vCenter Server使用者身分驗證資訊,並繼續下一個vROps部署流程。
在Summary頁面中,再次檢視組態設定內容,確認無誤後按下〔INSTALL〕按鈕,便立即執行部署作業,並且在vCenter Server管理頁面中,系統將顯示「Installation of vRealize Operations in progress !」資訊。
經過一段時間下載vROps安裝映像檔並部署完成後,重新整理vCenter Server管理頁面,便能順利地在vCenter Server管理頁面中直接看到vROps輕量級儀表板,如圖12所示。
vCenter中的六個vROps輕量級儀表板
現在管理人員在vCenter Server管理介面中,已經可以直接看到vROps輕量級儀表板。預設情況下,切換至vRealize Operations頁面時,將會顯示六個vROps輕量級儀表板中的「vCenter Overview」項目。
管理人員可以點選右方的「Quick Links」下拉式選單,便會發現六個vROps輕量級儀表板項目可供切換。簡單來說,儀表板有兩個大項目,分別是著重於「vCenter」和「vSAN」超融合環境,每個大項目內共有三個vROps輕量級儀表板,分別是Overview、Cluster View、Alerts,如圖13所示。
接著來看看這六個vROps輕量級儀表板項目,如何幫助管理人員快速得知vCenter Server管理平台,以及vSAN超融合環境整體的工作負載和健康狀態。
vCenter – Overview儀表板
在vCenter Server Overview儀表板中,可以快速且一目瞭然地了解整體健康情況。首先,在Are there any Issues區塊中,如果系統有任何錯誤或告警資訊,都會在此呈現,並且管理人員可以在點選後了解這個錯誤或告警資訊的詳細內容以及嚴重程度。在「Are Clusters configured for HA」和「Are Clusters Workload Balanced」區塊中,則可以快速看到vSphere叢集是否已經啟用HA高可用性機制和DRS負載平衡特色功能。
上述這幾個項目,雖然管理人員可以在傳統vCenter Server管理介面中查詢得知,但是必須個別項目逐一查看和確認才行,長期累積下來無形間也浪費不少時間。
此外,在這個儀表板中有二個項目,是傳統vCenter Server管理介面無法得知的,一個是「What is Operating System distribution ?」,直接將vCenter Server管理平台中,所有VM虛擬主機中作業系統的類型進行統計和分類。另一個是「What can be Reclaimed ?」,提醒管理人員在vSphere叢集中有多少的硬體資源其實是閒置且無謂浪費的,應該想辦法回收這些閒置的寶貴資源,達到節省費用的目的,如圖14所示。透過回收這些閒置的寶貴硬體資源,管理人員可以快速回覆主管,可為公司節省多少有形的IT預算開支。
vCenter – Cluster View儀表板
在vCenter Cluster View儀表板中,與剛才vCenter Server Overview儀表板類似,但是整體資訊著重在「vSphere叢集」的部分。假使vCenter Server管理多個vSphere叢集時,可以點選「CHANGE CLUSTER」切換至不同的vSphere叢集。
同樣地,系統在儀表板中提醒管理人員在vSphere叢集中有多少硬體資源是被閒置可進行回收的部分,特別的是在「Time remaining before Capacity runs out」項目中,將依據目前vSphere叢集總體硬體資源,以及各項工作負載的成長趨勢進行分析和判斷後,提醒管理人員各項硬體資源仍可以支應多久的時間,有效幫助在來年IT預算的評估判斷和採購計畫,如圖15所示。
管理人員應該隨時查看評估結果,因為vROps每隔一段時間,便會將工作負載的成長趨勢和總體硬體資源進行開銷估算,所以評估結果將會隨時變動。
vCenter – Alerts儀表板
在vCenter Server Alerts儀表板中,直接條列所有的告警資訊,並且依照嚴重程度和顏色進行排序,例如最嚴重的Critical層級採用最顯眼的紅色。當管理人員要查看和條列不同嚴重程度的告警資訊時,只要點選該層級項目即可。同時,預設情況下,將會直接顯示「Warning」層級的告警資訊。因此,當管理人員在時間有限的情況下,可以優先挑選需要被立即解決的問題,例如點選Critical或Immediate層級,然後閱讀系統提供的告警資訊再進行故障排除作業。
在告警資訊欄位中的「Triggered On」項目,如圖16所示,便是在vSphere叢集中發生問題的VM虛擬主機名稱,至於每項告警資訊欄位最後的「Open in vRealize Operations」連結圖示,則會另開新視窗至vRealize Operations Manager登入頁面,提供更進一步的問題分析和故障排除建議及補救措施。
vSAN – Overview儀表板
在vSAN Overview儀表板中,與vCenter Server Overview儀表板非常類似,但著重在vSAN超融合環境的相關資訊中,包括Disk IOPs和Disk Throughput儲存效能表現,以及是否啟用進階特色功能,例如Compression壓縮技術。
過去,在傳統的vCenter Server管理介面中,管理人員很難查詢到「vSAN元件」(vSAN Component)數量的總體使用情況。新版的vSAN環境可以透過Skyline Health機制逐一查看,舊版的vSAN環境則無法在vCenter Server管理介面中查看到,必須SSH連線至每一台vSAN叢集節點主機中,透過指令「esxcli vsan debug limit get」才能查詢vSAN元件的使用數量。
現在,在vSAN Overview儀表板中,在「What is the Component Limit ?」區塊中,便會直接顯示vSAN元件數量的使用情況。在本文實作環境中,可以看到在vSAN超融合叢集中,共有六台vSAN叢集節點主機,每台主機最多支援「9,000」個vSAN元件,所以此vSAN超融合叢集最多支援「54,000」個vSAN元件,目前已經使用「9,512」個vSAN元件,剩餘「44,488」個vSAN元件,如圖17所示。
而有關vSAN元件的相關詳細資訊,可參考VMware KB 2146130、KB 2108912、KB 67712知識庫文章內容。
vSAN – Cluster View儀表板
在vSAN Cluster View儀表板中,提供與vSAN Overview儀表板類似的資訊,但是整體更著重在vSAN超融合叢集的層面。舉例來說,在「What is remaining Capacity ?」區塊中,提供vSAN超融合叢集儲存資源空間的使用情況。同樣地,當vCenter Server管理多個vSAN超融合叢集時,可以點選「CHANGE CLUSTER」,切換至不同的vSAN超融合叢集。
在vSAN超融合叢集儲存效能的部分,除了原有的Disk IOPs和Disk Throughput之外,更增加「磁碟延遲時間」(Disk Latency)和「讀取寫入延遲時間」(Read Latency/Write Latency)圖表,如圖18所示,除了方便管理人員了解工作負載情況之外,更可以判斷企業內營運服務的資料讀寫趨勢,方便日後選擇相關解決方案時進行最佳化。
舉例來說,如果發現讀取延遲時間增加造成營運服務回應變慢,便可以考慮導入資料「讀取快取」(Read Cache)機制,讓資料讀取延遲時間降低提升營運服務回應速度。
vSAN – Alerts儀表板
在vSAN Alerts儀表板中,與vCenter Server Alerts儀表板相同功能,直接條列所有的告警資訊並依照嚴重程度和顏色排序,如圖19所示。同時,點選「Open in vRealize Operations」連結圖示,便會另開新視窗至vRealize Operations Manager登入頁面,提供更進一步的問題分析和故障排除建議及補救措施。
完整功能的vRealize Operations Manager
管理人員應該已經察覺到,vROps輕量級儀表板僅能提供「深入解析」(Insights),而無法提供更進階的操作。例如,在完整功能的vRealize Operations Manager儀表板中,已經內建更深入解析的「Heavy Hitter VMs」儀表板,如圖20所示,可以從儀表板中得知哪些VM虛擬主機在使用CPU和Memory運算資源非常吃重、哪些VM虛擬主機使用過多的IOPS儲存資源、哪些VM虛擬主機使用過量的Network網路資源。
除了故障排除建議和抓取耗損硬體資源的VM虛擬主機外,完整功能的vRealize Operations Manager還提供工作負載效能最佳化的各項建議,協助管理人員無須尋找和閱讀大量效能最佳化文件,便可以輕鬆得到VMware官方的各項最佳化建議,如圖21所示。
結語
透過本文的深入剖析和實作演練後,管理人員已經了解完整功能vRealize Operations Manager與vROps輕量級儀表板兩者之間的差異。因此,即便企業和組織在僅有vSAN超融合叢集環境和軟體授權的情況下,也能透過vROps輕量級儀表板的各項分析和統計數據,有效管理vSAN超融合叢集環境。
<本文作者:王偉任,Microsoft MVP及VMware vExpert。早期主要研究Linux/FreeBSD各項整合應用,目前則專注於Microsoft及VMware虛擬化技術及混合雲運作架構,部落格weithenn.org。>