智慧維運(Artificial Intelligence for IT Operations,AIOps)是近期IT市場崛起的新趨勢,去年(2018)網管人雜誌即以「維運管理」的角度出發,廣泛地探討AIOps解決方案,在當時「AIOps」一詞定義紛歧,因此,不管是將人工智慧引用到IT基礎架構與維運、雲端服務供應商所提供的AI維運服務,還是現今熱門的AI就緒基礎架構內所提供的AI管理平台,都廣義地視為AIOps的範疇。
但若就「平台」解決方案來說,目前多數供應商主要還是引用Gartner的說法,簡言之,就是將機器學習(ML)與大數據應用在IT維運之上。Gartner認為,AIOps平台是一種結合大數據、人工智慧或機器學習功能的軟體系統,主要是用於增強並部份取代廣泛的IT維運流程與任務,包含可用性與效能監控、事件關聯和分析、IT服務管理以及自動化。預估到了2023年,將有30%的大型企業會使用AIOps和數位體驗的監控工具(DEM),來監控應用程式與基礎架構。
從上述的描述中,其實不難發現,AIOps所提供的能力涵蓋了市面上常見的幾項方案,例如應用程式效能管理(APM)、安全資訊及事件管理(SIEM)、事件關聯和分析以及IT服務管理(ITSM),因此能夠適用的場景也就更為廣泛,不光只是基礎架構與安全,還能與業務績效產生連結。尤其是在自動化方面,機器人流程自動化(RPA)也被融入在總體方案之中。
Splunk總代理商零壹科技第一業務事業處產品協理王小芳認為,相較於傳統IT採用規則的方式來進行維運,加入了機器學習與大數據的AIOps,最大的差別即在於自動化以及事件的協作。「傳統的IT維運多半都是單點監控,而且是各做各的,即使有儀表板與告警機制,最終每一筆還是需要有人員判斷與處理,但是AIOps能夠讓維運大幅地自動化,例如一半以上的維運流程都能藉由自動化機制來處理。」此外,不少的監控機制都是從硬體設備出發,少見從應用程式的角度來觀察,但許多問題卻又是從應用服務中斷開始,「過往企業內部雖同時具備了APM方案與IT監控機制,但卻很難串接,AIOps平台則已事先做好整合,更容易找出問題的根本原因。」
AIOps是自然而然的IT演化
對於企業來說,AIOps最具誘因的地方即在於其能減少IT維運人員日常在處理警報上所花費的時間與精力,同時在演算法與機器學習的訓練之下,還能進一步提升效能與有效性。透過觀察多個系統、服務以及資源之間的關聯性,還能快速地查找出根本原因,以加速故障排除與系統修復的時間。
思科大中華區資料中心事業部首席技術顧問錢小山認為,AIOps興起,主要是因應IT基礎架構變革發展而來。隨著網路技術的演進,在Wi-Fi 6與5G等議題發展之下,大量裝置連網所伴隨產生的龐大數據量與效能需求也迫使應用程式走向容器與微服務模式,甚至是無伺服器(Serverless)架構,再加上未來資料的所在位置會愈接近資料源,可能是企業內部環境、管理平台、公有雲上甚或是霧運算/邊緣運算,屆時基礎架構必須跨越不同平台,當資料散布在各個地方,如何有效管理,便需要仰賴人工智慧,才能在第一時間找出維運的答案。
他提到,面對無所不在的資料以及日益複雜的IT基礎架構,企業將會遇到兩大維運挑戰。一是更敏捷,多供應商將使得維運愈益複雜,如何跨越多供應商並且快速找到根本原因將是企業的一大課題。其二是沒有優化的協作以實現監控系統的關聯性,「今日企業內部已有太多的監控工具,面對大量的訊息該如何判斷?哪些應該留意,而哪些則是超出範圍以外可以不予理會,將考驗管理人員的智慧。界定問題且瞭解問題才是最花時間的地方。」
針對未知問題實現故障自癒願景
顯然地,僅僅只依靠單一設備個別的監控已經很難滿足現今對IT維運的需求,企業需要能夠洞悉現有系統的上下關聯脈絡,並且能從各種不同的資料源中收攏資料,以透過機器學習建立模型進行預測與分析。為了滿足多元資料收攏與分析的需求,AIOps平台通常會具備一個現代化資料湖的儲存架構,以便胃納來自於各個不同資料源的資料,一方面擺脫儲存孤島,二方面能夠著重萃取資料價值,針對未知問題提出預警與分析。
其次,為了最大化地收攏資料,AIOps平台業者通常也會與合作夥伴建立起技術合作關係,以便能藉由API進行介接。另一方面,隨著混合雲架構運用日益普及,AIOps平台也能擴展到公有雲上,一併收攏相關資料進行資料分析。最後則是藉由AIOps平台自動化機制讓瑣碎的任務自動化,舉例而言,新進員工報到,企業會有一連串的報到流程,先到HR單位報到後,IT部門要準備相關的資訊設備與應用程式開通,甚至要在某些系統新增帳號,也可能有表單需要簽核,過往這些都是透過人員作業,如今都可以自動化流程來取代。
不僅如此,AIOps平台的應用並不只限於IT環境,還能提升資訊安全與業務洞察,以業務洞察為例,假設某項產品該月的銷售表現不佳,或許是當月Web伺服器出現多次反應延遲,用戶的使用體驗不佳,因而中斷消費所致。AIOps平台能串接業務與IT的關聯性,以達到業務營運洞察的目的。
Micro Focus資深技術經理尹德行指出,企業透過大數據分析來協助克服IT維運挑戰,並不是單純只用來收資料、發告警,而是希望能夠從這些資料中進行分析,進一步優化與降低成本、改善業務系統、預測趨勢助力決策、協助根本原因判斷,或是預測未來故障時間點等等。「傳統的工具與解決方案主要都是針對已知問題(Known Problem),而且是靠人來定義規則,很難預測到未知問題,但加入大數據以及機器學習技術的AIOps,則能透過異常檢測、問題定位、根因分析以及異常預警,讓自動化維運場景化,實現故障自癒的目標。」
觀察台灣AIOps市場發展,他認為,AIOps在國內仍處於推廣期,多數企業會以監控為主,希望先收攏多種類型的資料,以期後續能有更多的分析場景應用,但目前看來,後續應用仍有待強化,並沒有發揮得很徹底。他提到,也有企業看重AIOps的自動化機制,但深入瞭解才發現,企業本身根本就還沒有標準化,如此業者也很難實現自動化。「在這種情況下,反而會花費很多時間在標準化上。」台灣推動緩慢的原因之一是人工相對便宜,在國外已有許多AIOps自動化的案例,包含日常的檢查都以自動化來解決。
市場看好但仍在早期階段
根據Infoholic Research調查,到了2024年,AIOps市場預計將達到約140億美元,2018年至2024年期間的年複合成長率為33.08%。儘管如此,仍有多數企業處於觀望階段,近期,Trace3公佈了《2019 Q2 AIOPs Business & Technology Survey》,調查指出,有超過五成的受訪者在未來的1~3年並沒有規劃AIOPs專案預算,另外,有21%的受訪者希望AIOps預算不超過10萬美元。
在問及企業想要用AIOps解決哪些主要IT問題時,威脅檢測與分析(34.38%)是受訪者最希望解決的問題,接著是資源利用率(23.75%)、儲存管理(16.88%)、異常檢測(15.36%)以及容量規劃(9.38%)。而在未來的3至5年內,最聚焦以AIOps來驅動洞察的領域,首要是IT維運改善(34.38%),其次是應用效能管理(26.88%)、網路績效管理(20.63%)以及業務營運洞察(16.25%)。
Trace3同時也調查了阻礙AIOps成功的因素,受訪者指出,缺乏相關的員工技能(25%);缺乏連貫的AIOps戰略(21%);無法或缺乏經驗採用機器學習策略(20%)以及資料處理品質和資料儲存容量的不足(19%)都是關鍵。
IBM全球資訊科技服務事業部資訊系統規劃顧問林倩全指出,台灣企業現今對AI的認知程度仍有不小差距,一方面是受到「AI會取代未來人類工作」的印象影響,但事實上,現今的AI技術離未來的想像還有一大段差距。另一方面,不少企業對AI存在一種只要把資料餵進去之後,就可以自動產生模型與分析的想像,因此理所當然地認為AIOps也是如此,只要收攏資料就能直接分析問題根本原因。「還有一些企業是為了AI而AI,並沒有認真思考企業面臨的維運痛點,像這類的情況,往往需要經過一段時間宣導,企業才能知道AI在實際的維運上能夠扮演什麼角色。」
他提到,並不是所有的維運與痛點都需要透過AIOps才能有效解決,實現AIOps的前提是企業必須要有足夠完整的資料,如此才能進行機器學習。如果連基本門檻都不到,便很難施行這樣的方案,就算AIOps再厲害,沒有足夠完整的資料,巧婦也難為無米之炊。「每一家企業對於人工智慧都抱有不同的想像,對機器學習比較瞭解的企業大致能理解現今AI技術的發展離未來的理想其實還有一大段差距,但是這樣的技術已經能夠協助克服一些過去解決不了的難題,就務實的層面來看,AIOps平台確實能夠改善基礎架構維運,帶來更好的效益。」
【專題報導】:發揮AIOps潛力 推動維運革命