隨著越來越多新技術與工具被採用,盤根錯節的關係讓IT人員必須監控更多的項目,以及時發現問題、解決問題。但在此同時,大量的日誌資料、事件與告警不斷湧現,IT人員很難從中查找問題的根本原因,更遑論事前預測與自動修復。
數位轉型正在重塑企業價值,藉由改變傳統營運模式,讓企業能以更靈活且即時的方式來因應變革。然而,企業在加速創新與服務推動的同時,DevOps的開發方式以及日益複雜的系統,也讓資訊基礎架構維運充滿了挑戰。隨著越來越多的新技術與工具被採用,盤根錯節的關係,以及大量的日誌資料、事件與告警不斷湧現,IT人員很難從中查找問題的根本原因,更遑論事前預測與自動修復。
而另一方面,新冠肺炎(COVID-19)疫情帶來工作模式變革後,遠距/混合的工作形態也加劇了維運壓力,IT部門肩負著企業正常營運的任務,但分流上班、遠距辦公卻讓網路架構與系統變得更加複雜,管理負擔加重之外,也難以即時回應,甚至可能提高人為錯誤的風險。
這些因素在在都促使企業開始關注AIOps議題,希望能藉由人工智慧(AI)、機器學習(ML)來更快地找到問題與解決的方法、發現可能的遺漏之處,讓IT團隊得以擺脫「救火」的宿命,而能將時間與精力關注在更能創造價值的工作中。
台灣IBM雲端運算暨認知軟體事業部技術總監胡育銘觀察,COVID-19加深了企業經營者的潛在不安全感,擔心在遠距/混合辦公的工作型態下,萬一臨時出狀況,能不能即時反應、處理,因為這關乎企業營運是否會受影響,導致巨大損失或是喪失客戶滿意度。而另一方面,也是因為雲端環境以及AI技術日益成熟的推動下,使得AIOps需求不斷攀升。「AIOps的目標是將維運管理的平均復原時間(MTTR)降到最低,大型企業如高科技產業,每停止營運一個小時,可能就會面臨3,000萬元以上的損失,企業的考量方向會放在如何不讓事情發生,甚至提早預防。而AIOps能提供預測與洞察,讓IT團隊能更快地應對,加速找出根本原因。」
AIOps朝向泛用領域發展
根據Gartner定義,AIOps(Artificial Intelligence for IT Operations,智慧維運)平台是一種結合大數據、人工智慧或機器學習功能的軟體系統,主要是用於增強並部份取代廣泛的IT維運流程與任務,包含可用性與效能監控、事件關聯和分析、IT服務管理以及自動化。其主要涵蓋的領域有三大部分,一是Observe (Monitoring),包含歷史分析、異常檢測、效能分析以及關聯與脈絡化。其二是Engage(ITSM),包含任務自動化、變更風險分析、效能分析以及知識管理。第三是Act(Automation),包含腳本、執行手冊以及應用釋出自動化(ARA)。
由此也不難想見,AIOps涵蓋的範圍很廣,舉凡IT營運管理(ITOM)、IT服務管理(ITSM),以及網路效能監控與診斷(NPMD)以及應用效能監控(APM)都被包含在其中。值得留意的是,Gartner在2021年發布的AIOps平台市場指南中歸納,AIOps平台的產品可分為兩類,一是以特定領域(例如伺服器效能、應用程式、網路)為中心的解決方案,另一則是與領域無關的解決方案,隨著靈活處理多元資料的需求逐漸攀升,可能使AIOps平台轉向以不限領域的工具為主。
跨領域收攏多元資料更顯價值
這也意謂著,未來AIOps可望能收集更多的資料種類,甚至具備跨多個孤島查看數據的能力。事實上,許多解決方案供應商正在突破領域的限制,舉例而言,HPE垂直整合了DCIM機房設施智慧管理、ITOM、ITSM以及MCM複合雲端管理,從這4個面向來支援IT維運,甚至還發展出遠端AI維運中心;而BMC Software同樣強調跨平台整合,圍繞著ITOM(AIOps)、ITSM集中化服務平台以及自動化三大層面,串連事件、提供關連關係分布圖,並且藉由AI與ML讓事件「降噪」,找出根因。至於IBM則在既有的Watson AIOps維運管理方案之外,也將已收購的方案整合納入,如著眼於應用效能監控的Instana,與聚焦在應用程式資源管理的Turbonomic,結合這三者協助企業實現智慧維運。Juniper則將AI串穿旗下所有網通與資安架構之外,也有方案能針對多供應商的情境,監看網路的健康情況與指標,並且利用AI分析或預測網路可能的風險或問題,甚至可以觸發自動化的修復機制。
HPE慧與科技技術服務事業處副總經理王綸基指出,HPE近幾年都專注在垂直整合各個領域,期望能藉由深度分析,展現AIOps真正的效益。「大多數的AIOps方案著重的是在該領域的整合,但許多問題很難就單一領域的現況進行判別,舉例而言,處理器明明還遊刃有餘,為什麼消費者就是無法連線購票?如果單只從基礎架構的角度來看,根本不知道要如何回應,因為伺服器與儲存資源已經給到最極限了,卻還被怪罪資源不足。殊不知許多網路交易行為,對處理器與記憶體的要求並不高,關鍵可能是網路流量,這也是為何AIOps必須垂直整合的原因,唯有如此,才能真正找出問題的根因。」
智慧維運須滿足3V特性
根據OpsRamp近期發布一份IT維運調查,只有27%的受訪者對他們目前的監控方法感到非常滿意,而且高達九成五的IT主管指出,他們每天至少使用5種工具,更有過半數受訪者使用的工具超過10種。AIOps已成為「工具合理化」的焦點,因為AIOps能夠透過跨不同IT監控、服務管理和流程自動化工具,提供前瞻性洞察。
BMC Software台灣區業務總經理許智偉指出,AIOps已經有許多成熟的應用場景,綜合這些企業的回饋,總結來說可以具備幾項效益,包含加速故障發現、定位和解決,提升IT服務的可用性;降低運維人員的工作負荷;提升用戶體驗和滿意度;降低企業IT運行成本以及控制IT運行風險。「要運用AI,前提是資料必須滿足3V(大量、高速以及多樣性)的條件,從這個角度來看,政府、銀行、製造和電信業等產業高度依賴IT系統支援,對於IT服務的品質要求高,因此對於AIOps有著較高的需求。另外例如商業流程委外(BPO)、服務台外包等行業,對於智慧IT客服解決方案的需求也比較高。」
低學習門檻克服技能落差
現代化基礎架構已成企業數位轉型的基礎,不只是採用雲端、容器以及微服務架構,甚至導入物聯網來提高使用者體驗。然而,隨著系統架構日益分散且複雜,維運與管理難度跟著大幅攀升,面對來自於各個聯網裝罝、設備所產生的大量資資料與告警訊息,傳統的監控與管理方式早已無法因應,維運勢必也需要有所轉型。
然而,並不是每個AIOps的計畫都能夠順利進行,企業可能遇到的挑戰之一就是AIOps工具使用的技能落差,Juniper Networks台灣區總經理林蒲英坦承,企業確實面臨著想導入但又不可能投注太多人力學習的挑戰,因此如何提供一個簡單的工具讓企業使用將至關重要。不只容易導入與使用,而且還能協助企業因應遠距/混合的工作模式,提供完整的解決方案。「這也是為何Juniper提供雲端平台,能夠簡化有線、無線,WAN、SD-WAN以及路由器、資安等等作業,讓企業享受到AIOps的好處。」