去年(2020)思科發佈《2020年全球網路趨勢報告》,內容提到,人工智慧(AI)有助於網路團隊建立更好的基準、準確地預測問題,並且協助複雜的系統故障排除,已經有50%的網路策略師將AI視為打造理想網路所需要的優先投資項目。
思科台灣產品技術經理劉柏秀分析,AIOps日漸重要的原因可以從兩個層面來討論,一是業務營運面,隨著企業規模逐漸成長,維運場景也愈來愈複雜,企業需要增加維運人力來確保持續營運,但即便企業有足夠的人力,也無法即時反應問題,只能等待問題發生時,才能得知問題所在。此外,在新冠肺炎(COVID-19)疫情影響下,企業為了保護員工、符合政令,遠距上班或分流上班已成新常態,如何維持營運不中斷也就成為當務之急,「企業慢慢地發現,AIOps可以協助先反映問題並且試著解決問題,反而能讓IT同仁把時間投入在分析問題上,做更有價值的事。」
其次隨著愈來愈多的創新科技問世,雖然能夠直接或間接地對企業有所幫助,但對IT團隊而言,卻是另一項挑戰,當需要學習的技能愈來愈多,或是需要各式不同面向的人才方能讓業務運行順暢時,企業會很樂見這些創新科技能提供智慧的運作方式來降低維運管理挑戰。「AIOps是資訊長們很好的利器,根據思科2020年針對亞太區中小企業的成熟度調查報告,有70%的企業都希望能夠加速AIOps的發展,原因是在疫情的影響下,為了保護員工被迫分流,但營運仍要保持不中斷,如何在人力緊縮的情況下還能做好維運,AIOps就是一個很好的工具,可以在第一時間內反應,讓IT同仁專注事後檢查與追溯。」他說。
兩大主力產品串接應用與資源
為了讓企業獲得更全面的可視性,並且跨越技術領域,自動化維運應用程式、基礎架構以及網路,思科推出兩大主力產品,一為AppDynamics(應用程式效能監控),這項產品可以從企業內部環境、私有雲、公有雲,甚或是混合雲、邊緣運算等各種資料源來擷取資料並且加以分析,以確定資料的正確性。另一項主力產品為Cisco Workload Optimization Manager(CWOM),主要負責資源的調配。
AppDynamics在功能上結合了應用程式效能管理(APM)以及IT營運分析(ITOA),除了可以協助企業瞭解應用程式在基礎架構運行時,彼此之間的關聯性之外,也能依據應用程式的生命週期制定監控的基準線。以往的Rule-based機制並沒有辦法隨著應用場景而調整,特別是遇到企業月底結帳的時刻,大量運算致使系統效能飆高,系統便會不斷發出告警,時間一久,維運人員便容易因為疲乏而忽略告警的訊息。AIOps則在蒐集這些資料之後,透過機器學習把應用程式的生命週期畫出來,並且可以彈性制定規則,就不會收到無效的告警或者是因為有太多的告警而忽略。
此外,還可以監控應用程式的程式碼,提供深度的診斷功能,並且在需要時提供完整程式可見性,劉柏秀指出,AppDynamics現在已經可以分析到主程式底下的子程式,並且找出有問題的那一行程式碼。「但有時候問題的原因是使用者的操作行為,因此AppDynamics也會對使用者行為分析,如果是在正常操作下,程式碼出現問題,那麼AppDynamics便會Highlight出有問題的程式碼,反觀如果是因為使用者操作行為不當,AppDynamics也會把使用者所帶的語句反映給IT同仁知道,由IT同仁介入並且判斷。」
而CWOM的角色是在發生異常時,提供即時的資源調度,以確保營運的順暢運行。在AIOps的框架中,AppDynamics在發現問題後,會立即呼叫CWOM,如果CWOM判斷這是重要系統,且需要立即提供資源以解決問題的話,便會立即調度,讓系統先度過難關,隔天IT維運人員上班時,便可以人為地從後端介入分析到底是系統真的出現問題,還是因為人為疏忽而導致問題發生。
三面向助力企業提升
面對急劇變化的商業環境,數位轉型已成為企業提升競爭力的重要策略,根據ESG(Enterprise Strategy Group)研究調查,有五成以上的受訪者認為數位轉型最重要的目標是讓營運變得更有效率,其次則是提供更好、更具差異化的客戶體驗,以及開發以資料為中心與創新的新產品與服務。不過,這並不是一項容易達成的任務,尤其是IT環境日益複雜,如何確保應用程式在保有高效能的同時,還能有正確的資源運用配置以及合規性,已成一大難題。而AIOps的好處便在於其能減少IT維運人員日常在處理告警上所花費的時間與精力,同時在演算法與機器學習的訓練之下,還能進一步提升效能與有效性。透過觀察多個系統、服務以及資源之間的關聯性,快速地查找出根本原因,以加速故障排除與系統修復的時間。
劉柏秀認為,AIOps框架可以從三個面向助力企業提升。一是提高企業營運的可視性,過往企業只能知道VM與VM之間的溝通,但透過AIOps可以得知哪些應用服務彼此在溝通。其次是自動化的異常處理,當異常情況發生時,傳統的作法只能人工分析,現在透過機器學習加入以往的Pattern再分析後就能有所行動、自動解決或反應。第三是成本的精準度。過去AIOps給人的既定印象是用來解決問題,但不少企業希望AIOps能夠進一步節省企業成本。舉例來說,企業在採用公有雲服務時,初期因為擔心資源不足,往往會超額部署,但是因為運行得很順暢,就忘了這件事。倘若企業有AIOps平台,經過資料收集與分析後,便會發現哪些虛擬機器過大,這時就可以順勢調整,即便是混合雲的架構,也能精準控制成本。
「正因為如此,AIOps框架必須要能廣納百川,如果只能支援思科設備,那麼AIOps的美意就會打折。更何況,企業內部原本就有許多既有的硬體設備,也還沒有到折舊攤提的時間,極有可能無法立即轉換。對此,CWOM的作法是從Hypervisor著手,不管是微軟Hyper-V、VMware vSphere或是OpenShift,都可以支援。」他強調,思科的策略是希望打通網路層、應用層以及資源層,這也是為何思科會將AppDynamics與CWOM結合的原因,如此一來,企業便能從CWOM的儀表板看到資源的運用情況,並且對應到有哪些應用程式在使用這些資源。」