面對日益複雜的IT環境,傳統賴以監控與管理方法早已過時,如今,企業需要新的工具或方法來協助降低IT部門維運管理負擔,給予更視覺化的洞察。
數位潮流、新興技術的發展,再加上COVID-19帶來的遠距工作需求,IT營運團隊正在面臨著艱鉅的維運挑戰。面對日益複雜的IT環境,傳統賴以監控與管理方法早已過時,如今,企業需要新的工具或方法來協助降低IT部門維運管理負擔,給予更視覺化的洞察。對此,IBM也在近期發表全新的IBM Watson AIOps,運用人工智慧,使企業能夠自動化地對IT異常事件即時進行自我檢測、診斷和回應。
事實上,這並不是IBM首次針對IT維運推出AIOps(智慧維運)方案,更早之前,IBM也曾結合大數據的基礎架構以及IBM研究院依據企業痛點所開發出來的演算法,推動AIOps服務。不過,早期服務由於仍有些不足之處,例如個別的資料需要送回IBM研究院實驗室,由各有專長的實驗室專家,透過各自的開源工具來建立模型、找出結果再收攏呈現。而且只能進行一次性分析,新產生的資料往往無法即時地加入。為了解決這些缺點,IBM打造了全新的解決方案Watson AIOps,不管是結構化資料或非結構化資料都能收集、處理,並且分析與洞察出隱藏性的訊息。
Watson AIOps會收集來自於事件/警示、測量值、網路拓撲、日誌以及事故單的資料經過模型建立、分析、洞察後,透過ChatOps的方式呈現,亦即當Watson AIOps發現隱藏的洞察,便可利用Slack或是Microsoft Teams這類的協作工具來進行通知,並且將相關的資訊進行整合,舉例而言,某個購物系統出現問題時(事故),問題點可能來自於某個資料庫或伺服器、上下游的關係、影響了哪些系統,都可以在拓撲圖中看到關聯性。又或者,當事故出現時,同時收到4個告警,都是指向同一事情,也會一併的收攏在一起,同時還會查找過去是否有人發生了同樣的事件,在該事故單上建議如何解決。
台灣IBM雲端運算暨認知軟體事業部資深技術顧問黃鑫楨指出,不同於Rule-based的AIOps方案,Watson AIOps可以真正做到以人工智慧來判別,舉例來說,假設企業設定系統要使用超過50%才算異常,但是某一個系統長期以來的使用率只有1%,可是現在的使用率已經到10%,雖然不到設定的50%,Watson AIOps還是會判定為異常,因為使用率明顯已經提高了10倍,而主動發出告警。
就架構上來看,Watson AIOps主要是架設在IBM Cloud Pak for Data平台上,這個平台支援最新版的Red Hat OpenShift,可運行於混合雲環境中。計費模式是估算企業事件/警示、測量值、拓撲、日誌以及事故單的資料量後,才決定Watson AIOps需要多少核心數來加以計費。台灣IBM雲端運算暨認知軟體事業部技術總監胡育銘強調,一般在建立模型時,企業往往要花費時間找尋最佳的演算法,但Watson AIOps已經將模型最佳化了,企業只需要將資料收集、處理,訓練出模型後,新進的資料就可以與訓練結果進行比對,不僅可以做到解決事故(例如從日誌中偵測異常、事件分類、決定行動等等)、對事故分析(例如異常預測、根因分析、最佳行動建議、因果解釋),還能主動避免事故,做到變更風險管理。