AIOps 智慧維運 數位轉型 監控 人工智慧 AI Covid-19 遠距辦公 ITSM ITOM 自動化 APM

AIOps收攏全面資料 打造完整場景端到端方案

統合管理效能資源 提供跨系統完整可見性

2022-01-06
長久以來,IT團隊一直肩負著確保日常營運順利運行的任務,然而,在數位潮流、新興技術發展,以及遠距/混合工作的新常態下,挑戰卻日益艱鉅。智慧維運(AIOps)便是希望運用人工智慧(AI)來降低IT部門維運管理負擔,給予更視覺化的洞察。

 

長久以來,IT團隊一直肩負著確保日常營運順利運行的任務,然而,在數位潮流、新興技術發展,以及遠距/混合工作的新常態下,挑戰卻日益艱鉅。一方面,遠距的工作環境增加了更多不可控的變數,而企業轉向微服務架構,也讓IT環境愈來愈複雜。而另一方面,由IT基礎架構所創建的資料量越來越多,設備與系統的日誌資料與事件也隨之不斷增長,想在其中找出問題關鍵,無疑增添了許多難度。智慧維運(AIOps)便是希望運用人工智慧(AI)來降低IT部門維運管理負擔,給予更視覺化的洞察。

投入IT自動化多年,IBM在早期推出的系統監控分析管理工具IBM Tivoli Monitoring中便已加入預測功能,台灣IBM雲端運算暨認知軟體事業部技術總監胡育銘指出,當時推出的工具比較偏向結構化資料的預測,若從現在的觀點來看,其實並不足夠,現今有更多來自於IT、OT的非結構化資料,如設備機台、日誌以及工單系統(Ticket System)等等,自動化維運必須涵蓋得更廣,才能滿足企業所需。因此,在2020年IBM重組產品線,並且在Think Digital大會上正式發布Watson AIOps。

他進一步說明,自併購Red Hat 後,IBM很看重Red Hat OpenShift Container Platform平台,IBM將所有的解決方案全部容器化並且建構在此一平台上,並且依不同的應用打包成Cloud Pak。例如用於資料分析與ML洞察的IBM Cloud Pak for Data,或是運用AI建議分析以減少商務人工流程時間的IBM Cloud Pak for Business Automation,因此,針對IT維運的管理方案便稱之為IBM Cloud Pak for Watson AIOps(WAIOps)。這項方案運用了Watson在機器學習與深度學習的強項,除了做到結構化資料預測分析,也做到非結構化資料的收集。

端到端方案整合APM、ARM

然而,隨著企業基礎架構日益複雜,IT管理人員需要跨系統的完整可見性,並關聯各種運營數據和指標,因此IBM在近年相繼併購Instana與Turbonomic兩家公司,並且與WAIOps進行整合,成為端到端的解決方案。

Instana是一家專注於雲原生和微服務應用的應用效能監控(APM)的廠商,不論應用程式位於公有雲、私有雲、混合雲、On-premise或是IBM Z大型主機,都可以運用Instana來監視任何應用程式、服務或要求。

胡育銘解釋,Instana可以監控應用程式與API,過往遇到應用服務變慢或中斷時,IT管理人員總要花費很多時間找出問題、解決問題。透過Instana,則可以從應用程式往下監控到微服務,包含容器、VM一直到資料中心,從拓撲圖都可以看到完整的關連性。而Turbonomic則是應用程式資源管理(Application Resource Management),「現今企業普遍存在一個問題,基礎架構團隊會依據應用系統的需求提供運算資源,然而卻發現很多VM的使用率卻非常低,從維運的角度其實很浪費資源,Turbonomic可以很清楚地看到資源狀況並且進行管理,曾有金融公司在導入Turbonomic後才發現VM的授權幾乎可以省下一半。」

他指出,Instana與Turbonomic的資料又可以與WAIOps整合,WAIOps可以收集結構化與非結構化以及工單系統,還有既有問題的處理經驗與對談記錄,都可透過自然語言處理(NLP)進行分析與預測,並且預估影響範圍。而所有的訊息,都可以透過ChatOps提供給管理人員。「企業如果特別聚焦在微服務,有許多容器與Docker這類新應用,由於微服務的彼此呼叫關係很複雜,這時就可以選擇Instana從應用程式的角度找問題。而Turbonomic則可以收集很多日誌資料或ELK,特別是基礎架構需求量很大的時候,管理成為一大挑戰,這時Turbonomic就很適合。」

自動化管理需求攀升

調研機構IDC近期發布一份亞太地區企業越來越多地利用AIOps 來優化基礎設施運營的調查報告(Asia/Pacific Enterprises Increasingly Utilizing AIOps to Optimize Infrastructure Operations),並預測到了2023年,在全球二千大企業中,將有75%採用自動化維運來轉變其IT人力以支援前所未有的規模。

根據IDC定義,AIOps係指以智慧和高度自動化的方式,應用人工智慧/機器學習以及大數據和分析來應對現今基礎架構管理的挑戰。IDC亞太區IT服務研究部副研究總監Pushkaraksh Shanbhag指出,面對日益多樣且複雜的IT基礎架構,IT團隊正在轉向AIOps,以協助更有效地管理基礎架構的維運。調查指出,企業規模愈大,AIOps的採用率就會跟著提高,普遍來看,中型企業(250~1,000名員工)最為積極。

胡育銘觀察,自前(2020)年開始,AIOps的詢問度便一直居高不下,顯示出AIOps在市場上接受度或需求變高,而這不僅僅是新冠肺炎(COVID-19)的因素。「當然,在後疫時代,IT維運若能變得更自動化,以降低『人的因素』影響,例如因為疫情升高導致無法進入辦公室故障排除的情況,將會更好,」他提到,因為萬一出現問題而沒有人員可以即時回應,影響的可是企業的營運損失或是客戶的滿意度,企業會希望能夠尋求更自動化的管理,使得詢問度也跟著攀升。

不過,即便沒有COVID-19影響,像是高科技產業、銀行等只要系統一出現問題影響就很嚴重的產業,也早早就開始詢問與評估,企業希望能在出事之前就能找出徵兆,「這些產業普遍面臨兩大問題,一是有太多的雜訊,因此很難判斷,另一是需要累積多年的經驗,才能正確判斷問題,而這需要時間學習。但現在透過AIOps的機器學習,就能預測徵兆及可能會發生的問題。」胡育銘進一步說明,AIOps的目的是要將維運管理的平均復原時間(Mean Time to Recovery,MTTR)降到最低,大型企業例如高科技產業每停止營運一個小時,損失動輒3,000萬元起跳,他們的考量點是如何不讓事情發生,做到提早預防。有了預測洞察後,便能鎖定根本原因,進而解決問題。

台灣IBM雲端運算暨認知軟體事業部技術總監胡育銘指出,企業基礎架構日益複雜,IT管理人員需要跨系統的完整可見性,並關聯各種運營數據和指標,因此IBM在近年相繼併購Instana與Turbonomic兩家公司,並且與WAIOps進行整合,成為端到端的解決方案。

他強調,WAIOps的特色就是能適用多元的場景,可以持續學習,而且愈學愈聰明。就架構上來看,前端可以收攏結構與非結構化的資料,包含網路設備的日誌、Ticket、事件/告警或是處理器的使用率等數值還有拓撲圖等資料都可以匯入,且可透過內建四大模型,包含AI Manager、Event Manager、Metric Manager以及Topology來進行分析,結果則透過ChatOps來進行討論,得知相關的訊息以及影響半徑。「在最新版本中也已經開始提供儀表板,讓使用者以熟悉的方式進行視覺化洞察。」

 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!