傳統管理工具必須透過許多不同的元件監控,企業常常重複投資,也無法做到端到端(End-to-End)的分析功能,而且維運監控資料常常被過濾或者留存期間太短、很難對長期的問題調查根源,管理上也需要多個部門每位管理員親身監控,對數位業務不夠靈活,往往需要耗費更長的時間來找出根本原因。
隨著企業加速數位轉型,混合多雲架構成為主流,呈指數型增長的龐大資料量以及雲原生技術(如容器、微服務、Docker與Kubernetes等等)應用愈來愈普及,IT團隊面臨的監控管理挑戰也愈來愈嚴苛。採用傳統管理工具也經常出現許多不足之處,例如必須透過許多不同的元件監控、常常重複投資、無法做到端到端(End-to-End)的分析功能,而且維運監控資料常常被過濾或者留存期間太短,因而很難對長期的問題根源進行調查,管理上也需要多個部門每位管理員親身監控,對數位業務也不夠靈活,需要耗費更長的時間來找出根本原因。
儘管多年來,企業試圖整合所有的監控管理工具以取得更多的可觀察性,但實務上,IT維運人員卻一直處在救火與滅火間疲於奔命,這也促使智慧維運(AIOps)議題在近幾年備受關注,原因即在於傳統的人工開發和維護方式已不堪負荷,IT維運管理也需現代化朝向AIOps轉型。
四階段邁向AIOps
專家指出,從傳統IT維運走向AIOps須歷經四個階段。第一階段是資料收集,藉由大數據分析來搜尋與監控,以即時監控效能並且排除中斷與故障問題。第二階段則是提升維運的可見度,以服務導向的視野來看待IT環境,端到端瞭解驅動服務的原因,監控KPI並深入掌握具體問題。第三階段是業務的洞察力與IT服務管理(ITSM)整合,在這個階段,績效會與業務KPI掛接連動,並且提供見解以增進敏捷性或是體驗。第四階段才是預測與自動化處理,預測可能發生的問題,並且提出行動建議,以及確定持續的改進點。
「儘管AIOps技術現今已發展到第四階段,但實務上有不少企業還沒進入第一階段。」零壹科技第一業務事業處技術經理陳家銘指出,不少企業現今的處理方式仍然處於遇到問題後才趕快救火的作法,而且只想趕快把問題解決了事,卻沒有思考造成問題發生的真正原因,往往在問題解決後,並沒有留下解決的方法與紀錄,將問題歸類整理。由於缺乏足夠的學習數據,人工智慧就無法發揮成效,更不用說預先為可能起火的地方先灑水或設置防火巷。
「歸究原因,普遍還是存在心態問題,由於不同部門都有自己不同的監控管理工具,而且也不想要跨部門管理資料,導致應用程式明明受到影響,但各個部門卻完全沒有發覺有異狀的情況。」他提到,IT團隊必須意識到「資料分析」也是工作的一部分,唯有如此,AIOps才會有成功的機會,企業也才有可能真的進行數位轉型,否則IT仍會被貼上標籤,視為只是維運、設定設備的後勤管理單位而已。
智慧維運基礎是資料收集
陳家銘指出,專精智慧化維運的Splunk解決方案分為三大部分。在平台方面,Splunk Enterprise主要是針對企業內部環境部署;若是在混合雲或多雲環境下,則可以選擇Splunk Cloud Platform,該平台為SaaS服務,可針對混合雲上PB等級規模的資料進行分析,提供雲端資源的深入洞察。
而在平台之上,也分別針對資訊安全與可觀測性提供額外的套件選購方案,在資訊安全領域方面,Splunk Enterprise Security為SIEM解決方案,可在幾秒內攝取(Ingests)和梳理大量數據,以發現異常行為並發出警報,並且提供單一、簡化的數據視圖,以協助企業有效地檢測、調查和回應安全威脅。而Splunk SOAR則負責資訊安全編排管理自動化和回應,可協助資安人員簡化流程以處理更多事件、更深入和廣泛地調查最重要的問題,以改善整體安全狀況。他舉例,假設某台電腦遭受駭客攻擊,帳密被竊取,下一步該如何行動?部分小型企業或是未配置資安人員的企業在遇到這種情況時往往不知到該如何處置,透過這個方案,企業可以自己建立資訊安全的標準作業流程,並且進一步設計成自動化作業。
可觀察性(Observability)是數位轉型成功的前提,對此Splunk也推出三項方案。Splunk Infrastructure Monitoring主要是針對基礎架構進行監控,可即時準確地偵測動態閾值、多種條件和複雜的規則並發出警示,藉此消除出現大量警示的情況,並大幅縮短MTTD/MTTR,且能橫跨數千個微服務、多種短暫部署、應用套件版本及數十億事件,進行疑難排解。而Splunk Application Performance Monitoring則是APM解決方案,可幫助企業追蹤應用程式的效能,以識別和深入了解在開發和運行時發生的問題。甚至可以深入到程式碼層級的效能分析,有助於在雲端原生和整合型應用套件中疑難排解瓶頸及最佳化效能。
至於Splunk IT Service Intelligence(ITSI)則是一款AIOps解決方案,其運用了機器學習以及事件分析功能,來提供包含關鍵IT、業務服務及其基礎架構的運行狀況以及效能指標的可視性。ITSI能夠聚合所有的資料,降低工具和IT孤島的複雜性,跨功能組織和關聯事件並瞭解服務的上下關係,以便更快地進行調查,分析根本原因並且縮短事件解決時間。而機器學習的演算法則能提醒異常情況,並即時動態調整臨界值。
加速事件回應提升使用體驗
企業尋找端對端管理的可觀察性分析解決方案,效能指標(Metric)、軌跡追蹤(Trace)以及各式日誌(Log)缺一不可,如果沒有收集到足夠的資料,即使運用了人工智慧,也不會產出好的洞見。
陳家銘以韓國遊戲公司Nexon為例指出,在還沒導入Splunk Enterprise之前,Nexon需要瞭解虛擬遊戲世界中的用戶行為,以做出更明確的決策。然而這種手動收集數據的過程極其複雜且耗費大量人力,每當遊戲總監要求數據時,基礎架構團隊就必須一台一台地搜尋伺服器,然後將詳細訊息傳遞給IT團隊進行解析和分析,然後將結果呈現在Excel電子表格中。過程往往需要耗費幾天時間,更糟糕的是,Nexon必須等待用戶的直接反饋或投訴,然後才能解決任何用戶問題。
導入Splunk Enterprise後,Nexon現在可以透過單一管理平台查看從多個來源收集的數據,透過捕捉過去和現在的使用模式、趨勢和遊戲高峰期,即時地洞察遊戲玩家的行為,進而推出特別優惠、新遊戲內容與促銷活動活動。「由於遊戲內容每月甚至每週都在變化,Nexon必須跟上內容製作週期並維護其客戶服務和統計工具的服務層級協議(SLA)。以前維護窗口需要額外的開發資源,現在,藉由Splunk軟體中獨特的非結構化資料處理,徹底消除了開發的需要,讓遊戲維護時間足足減少了十倍。基礎架構團隊還可以即時發現異常遊戲活動並解決根本問題,由於加速了事件回應,提高業務效率,因此用戶體驗也被優化。」他說。