愈來愈多的企業已然意識到將人工智慧(AI)運用在IT維運的好處,並且紛紛將焦點轉向智慧維運(AIOps)解決方案,根據Proficient Market調查,兩年前(2019)全球AIOps市場僅有16.4億美元,但預估到了2025年將可上看到68.8億美元。各式供應商也紛紛推出具有不同功能的AIOps解決方案,例如NetApp便推出Active IQ來降低IT維運人員的挑戰。從IT維運管理(ITOM)的角度切入,Active IQ可以化身為數位顧問,協助企業管理儲存設備,還能對混合與多雲的環境提供優化建議。
AutoSupport為前身 Active IQ演化精進
事實上,在AIOps名詞還沒出現之前,NetApp便已推出AutoSupport,這項服務主要是藉由收集儲存系統的組態配置與事件資料,傳送回NetApp的支援與工程團隊,以加速問題支援,同時也作為新產品開發的參考依據。後來NetApp併購SolidFire後,SolidFire旗下的Active IQ便順勢與AutoSupport整合,以AutoSupport收集的資料為基礎加上資料科學與預測分析技術,提供預測分析與主動式支援,並且將其統一稱之為Active IQ。NetApp台灣區技術長張展智說明,三年前NetApp就推出了具備人工智慧的虛擬支援助理Elio,這便是自動化的第一步。
ActiveIQ目前主要支援企業內部部署的NetApp儲存設備,但也能支援雲端的 Cloud Volumes ONTAP(CVO),此外Cloud Insights與 Cloud Manager也已跟ActiveIQ整合。Cloud Insights是一項SaaS方案的監控工具,主要是協助企業監控公共雲以及企業內部的資料中心,瞭解整個企業基礎架構及服務。而Cloud Manager則是一個集中式控制平台,可讓企業在混合雲環境中輕鬆管理、監控及自動處理資料。
他提到,從功能面上,Active IQ除了監控安全性弱點、組態錯誤、韌體過時以及硬體故障這類問題之外,也能對非預期或快速成長而達到效能或容量限制的狀況提出告警,並且搜尋可能危及系統可用度、安全性或效能的蛛絲馬跡,一旦找出潛在問題,Active IQ還會主動開啟支援案例,或是提供明確的指引,協助IT人員採取行動。
維運挑戰與技術發展將驅動需求
數位轉型已經成為許多企業的優先要務,唯有如此才能因應客戶需求,獲得長久的競爭優勢,如果企業投注太多的時間在診斷和解決服務中斷的問題上,那麼潛在客戶很可能會選擇投向競爭對手的懷抱,品牌忠誠度降低而導致營收損失。「問題是,在數位轉型與混合雲應用日漸普及的情況下,企業IT架構趨向多樣化及難以統一,系統維運人員的工作壓力也日益沉重。」張展智觀察,像是維運人員因為須手動處理瑣碎、重複的工作,浪費大量的時間與心力,可能造成「不小心的人為操作失誤」,進而發生故障或服務中斷;因為使用太多工具或必須透過多種使用者介面來部署、使用、維運及控管而衍生複雜性;IT架構的突發問題需要愈來愈快地解決;開發者享有更大的權力跟影響力,但基礎架構的可靠度及安全性卻仍由IT維運人員承擔;以及近期非常熱門的勒索病毒與駭客攻擊,在在都加深了維運負擔。
特別是去年在COVID-19影響下,勒索軟體的危害時有所聞,企業勢必需要有所預防與補救。另外,很多企業都導入的DevOps強調快速開發,但是在研究開發為王的時代,基礎架構的可靠度及安全性卻仍是IT維運人員承擔,換言之,遭受到壓力或者是時間被擠壓的會是IT團隊,而這也會增加AIOps的需求。
他繼續說明,「若是從技術面來觀察,包含AI運算及混合/多雲架構、物聯網(IoT)設備、微服務架構與容器化技術、API介接串連,以及XaaS(Everything as a Service)等趨勢也都在加速AIOps需求。」例如,愈來愈多的企業採用微服務架構,更加劇了維運挑戰,例如他遇過客戶將K8s環境透過Trident接上NetApp的儲存設備,但在刪掉了容器之後卻留下Persistent Volume(PV)並沒有回收,諸如這些情況也會讓企業思考如何運用AIOps來改善。
增加健康活動歷史趨勢完整呈現設備組態
運用預測分析和機器學習演算法,Active IQ希望能帶給企業系統運行可見性、在業務被影響之前就找出可能的風險並且預防問題,同時能遵循規範性和自動化操作,以簡化儲存管理。預計未來也會增加健康活動的歷史和趨勢、定期(每月或每周)發表能力和效率報告、工作量指標、總體利用率的峰值性能圖等等,舉例而言,健康評估(Wellness Review)是一個非常好用的功能,能夠把所有NetApp儲存設備的組態都呈現在儀表板上,包含是否啟用了重複資料刪除的功能、保固是否快到期,或者是儲存容量在未來六個月內即將告罄,又或是效能已屆不足等等資訊,一併顯現在儀表板中,讓IT管理者能夠一目瞭然。
張展智認為未來AIOps發展要觀察幾個因素,一是有效性。AIOps的有效性取決於AI的演算法以及接收資料的多寡與準確,以Active IQ為例,Active IQ每天都會接收來自全球成千上萬個系統的遙測數據,並將其添加到一個PB級容量的資料湖中,該資料湖每個月都要處理幾兆個數據點;如果資料不夠多的話,行為分析就會不夠準確。其次是自建置的考量,即使資料量夠大,企業自建、管理和維護AIOps平台可能需要花費大量的時間及成本,而且,AIOps系統依賴企業保留所有數據來源,這些數據幾乎都是非結構化數據且所需容量非常龐大,整合既有的管理工具及介面需要時間。另外一個因素是,現今台灣仍有許多中小型企業並沒有完整儲存日誌資料的習慣,這些企業目前都仍處於觀望階段。
「綜觀而言,若單以儲存系統來看,如果資料中心大部分都是使用單一品牌的話,企業可先選擇原廠本身提供的解決方案優先建置,進入門檻較低,建置費用(包括人力)也會較低,而且能夠使用愈簡單的工具來進行管理,對企業也愈好。」他說明,倘若企業已開始數位轉型,內部環境滿坑滿谷的不同解決方案,或是已經導入混合雲或公有雲的話,選擇自建或者是直接用訂閱模式來取得服務會更有優勢一些,當然自建會有一些條件需要克服,若是採用訂閱服務的方式,那麼訂閱的服務能否涵蓋企業內部環境裡面所有的設備也是考量因素,一般來說,至少要能納管到七、八成,剩下的再用其他方法來補足即可。