AIOps 智慧維運 數位轉型 監控 人工智慧 AI Covid-19 遠距辦公 ITSM ITOM 自動化 APM

滿足3V資料最適智慧維運 結合顧問服務找出最佳實踐

邁向自治數位企業 跨平台整合降噪現根因

2022-01-07
創立於1980年的BMC Software是全球企業管理解決方案供應商,其總部設立於美國德州休士頓。1998年成立台灣分公司,在台已深耕20多年。長期以來,BMC Software一直致力於提供開放、可擴展與模組化的解決方案來協助企業因應複雜的IT問題,全球已有超過1萬家客戶,隨著數位潮流趨勢發展,BMC Software也協助企業朝向自治數位企業(Autonomous Digital Enterprise,ADE)的道路上邁進。

 

想要成為自治數位企業,其中一個關鍵因素便是自動化。BMC台灣區業務總經理許智偉指出,Gartner在2018 年開始定義AIOps,但其實早在2018年以前便存在IT自動化維運這樣的概念,只是當時是以IT維運管理(ITOM)、IT服務管理(ITSM)等議題推動,而且也有應用一些人工智慧(AI)、機器學習(ML)的技術。隨著技術與功能不斷演進,愈來愈多的ITOM與ITSM也被納入到AIOps中。「在Gartner的定義中,AIOps包含了監控、維運(ITSM)以及自動化三大領域,而支持這三者的關鍵元素便是使用人工智慧與機器學習。」 他提到,這三個領域剛好也是BMC聚焦的領域,而且BMC認為AIOps必須跨平台整合,才能滿足到大數據3V(Volume、Variety以及Velocity)的條件。目前有許多解決方案其實都是從單一節點的角度來看待AIOps,而且各自獨立,然而如果維運想要做到智能學習,大量、多樣以及即時性的資料是必要的條件,不只整合資料庫,也需跨事件與平台,唯有如此才能「降噪」,在大量的訊息中找出根因。

舉例而言,企業過往設定監控的警戒值都是採固定制,例如當處理器負載超過60%時就會發告警,若遇到平時運行只有20~30%的系統,突然增加到50%的情況時,維運人員並不會收到告警,因為沒有超過警戒值。但這可能是個很嚴重的異常事件,錯過了即時處理的時間,將可能造成龐大的損失。「BMC解決方案的不同之處在於,內建的AI技術會根據學習的曲線給予區間,雖然設定60%,但是只要超乎平常表現,有明顯異常,平台還是會發出告警,以避免系統中斷的風險。」許智偉說。

多項優勢減輕維運負擔

新冠肺炎(COVID-19)疫情帶來工作模式變革,但分流上班、遠距辦公產生大量服務請求,例如遠端存取、密碼重置以及連接問題等等,再加上為了因應遠距的工作模式所投入的資訊設備及系統,像是遠端連線系統、電子化流程系統、任務與專案管理系統等,各種數據量的大量增長,無疑更加劇了維運壓力。

AIOps可在多項領域提供協助,例如智慧事件關聯可藉由獲取大量事件數據,來消除事件噪音(即同一問題根因導致的多個事件),以便清晰地瞭解可能導致未來故障的真實問題;或是執行可能原因分析和根本原因隔離,以幫助營運和服務管理團隊主動確定潛在服務或效能影響的來源,以便在造成影響之前採取糾正措施。另外還能縮短平均維修時間、提升服務品質、節省員工勞動力(無需人工查找問題原因),並防止出現不利的服務和效能影響。而且藉由整合CMDB服務模型、事件通報單、變更工單、監控告警、日誌資料等等來綜合分析運維態勢,能更準確地定位故障根源。

他觀察,對IT服務品質要求相對較高的產業,包含政府、銀行、製造和電信等高度依賴IT系統支援的產業,對AIOps有著較高的依賴。原因在於,一旦遇到IT故障,可能對業務造成很大的衝擊。另外,特定的維運領域對於AIOps的特定解決方案要求可能也比較高,例如商業流程委外(BPO)、服務台外包等行業,對於智慧IT客服解決方案的需求也比較高。

他提到,國內半導體龍頭廠商在2021年初便選擇導入BMC Helix全產品線,正是看中BMC AIOps能夠透過事件的串連,藉由AI、ML技術讓事件降噪的優勢,「企業IT環境日益複雜,雖然觸動事件的根本原因只有一個,但可能資料庫、作業系統、伺服器、網路以及應用程式都會同時出告警,IT維運人員在面對這種情況,往往需要花費大量時間逐一確認,但現在只需要透過平台分析出來的百分比,例如資料庫90%、網路10%等等,便能輕易地加以判斷。」他透露,該企業客戶對關連關係分布圖也很重視,「不同於其他方案是從設備角度提供事件的視野,BMC是以服務為導向,自動建構資料中心的關連關係圖,例如有多少台儲存設備承載了多少伺服器,伺服器上有多少作業系統以及應用程式,這些關連關係都可以被完整繪製出來。」

成熟度分析找出最佳方案

為了提供給企業一個完整的 IT環境全貌,Helix平台包含了幾個主要的產品,Helix Operation Management(BHOM)主要是透過智慧事件管理和效能監控功能來主動識別與快速解決問題;Helix ITSM則是AITSM智慧化流程管理解決方案,可提供工單智慧分類與推行、智慧客服機器人、主動問題管理以及事故即時關聯等等場景;Helix Discovery則能針對多雲環境進行IT管理,自動化地發現雲端、傳統資料中心等環境中的IT資產和配置項目,理出不同IT元件的關聯關係,進而建立應用服務關聯模型;最後,Helix Continuous Optimization是提供IT環境的資源容量分析預測的模組,像是容量需求預測、容量趨勢分析與預測以及雲成本優化建議。

BMC產品客戶經理吳建緯指出,在自動化解決方案方面,則有Truesight Orchestration、Truesight Automation for servers、Truesight Automation for networks等,能夠支援AIOps在進行智慧分析診斷後,提供自動化的修復和處理支援,完成變更操作,提升維運效率。「企業採用AIOps的目的之一就是希望能改善作業流程,而其中『變更管理』就是一項很大的難題,特別是在微服務的架構中,容器的啟用與刪除管理更是挑戰,若不能抓出人為或是駭客入侵造成的變更,資安風險很可能因此而攀升。」

BMC台灣區業務總經理許智偉(左)指出,AIOps必須跨平台整合,大量、多樣以及即時性的資料是必要的條件,唯有如此才能降噪,在大量的資料中找出根因。右為BMC產品客戶經理吳建緯。

「IT維運發展至今,企業可能會覺得該有的監控與管理工具都已經具備了,但問題仍然層出不窮,」他建議應該要結合顧問服務,「一般情況下,會先進行需求訪談,並且在訪談過程中進行成熟度分析,找出企業在AIOps的藍圖中還有那些是做得比較不成熟或忽略的地方,例如基礎架構很強大,但流程卻沒有那麼成熟,導致IT管理人員一直在救火;又或者是因為變更流程沒有控管好,一旦變更就出現問題等等。完成訪談之後,才知道如何實施才是對企業環境最好的方案,流程該如何改善、如何將監控與營運管理進行整合,最終而能實現自動化。」


 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!