長期以來Splunk即聚焦在ITOps,協助IT維運管理。以往在提供儀表板以及告警機制之後,企業最終還是必須由人力來處理與解決,但近幾年,Splunk也不斷藉由併購來彌補自動化機制的不足。
根據Gartner在AIOps平台市場指南中提到的定義,AIOps平台是一種結合大數據、人工智慧或機器學習功能的軟體系統,主要是用於增強並部份取代廣泛的IT維運流程與任務,包含可用性與效能監控、事件關聯和分析、IT服務管理以及自動化。乍看起來,AIOps平台似乎只是把大數據、人工智慧或機器學習帶進了IT維運之中,但它傳遞的更深一層訊息是,IT團隊其實擁有大量有用的訊息資料,而這些資料將有望用來加速維運並推動業務成果。然而,傳統的維運方案、工具以及解決方案,多半只限於局部且已知的問題之上,很難因應現今複雜的IT環境,更不用說預測可能的未知問題。
AIOps平台能夠增強或取代現有的IT維運流程,例如IT團隊可藉由AIOps預測停機時間、主動預防並且解決問題,從而提高使用者的滿意度;過往因為數據孤島而導致只能各自獨立管控的狀態也會獲得改善,透過關聯性分析,將能加速查找根本原因並且縮短修復時間;而以往在遇到問題時,維運人員需要手動確認才能故障排除的情況,現在也能透過自動化機制來簡化作業,讓IT團隊能有更多的時間與精力用於分析以及優化上。
Splunk總代理商零壹科技第一業務事業處產品協理王小芳指出,長期以來Splunk即聚焦在ITOps,協助IT維運管理。只不過,以往在提供儀表板以及告警機制之後,企業最終還是必須由人力來處理與解決,這也是為何在近幾年來,Splunk不斷併購公司的原因之一,目的即是用來彌補自動化機制的不足。例如,Splunk在2018年分別收購Phantom與VictorOps,前者主要針對資訊安全的自動化與RPA,能自動化處理重複類型的事件,而VictorOps則是針對IT維運的自動化機制,在準確的時間自動把告警送給正確的對象。今年8月,Splunk也宣布收購SignalFX,為應用程式生命周期提供即時監控與觀察,預計將於2020下半年完成。「Splunk一直致力提供給企業一種更現代化的智慧維運方法,利用大數據與機器學習,從而提高IT維運成效並且降低成本。」
額外套件建模更輕鬆
目前Splunk AIOps平台有兩大核心產品,一是Splunk Cloud,另一則是Splunk Enterprise。前者是SaaS服務,如果打算部署到企業內部環境,就可以選擇Splunk Enterprise。除了可以索引和分析不同基礎架構的資料之外,還有2,200個以上的套件可以使用,從IT、資安、物聯網(IoT)、端點到裝置,都可以介接到平台之中,另外也有豐富的生態系,包含思科、Dell EMC、Paloalto等設備商、微軟、Salesforce、Box等服務供應商,以及國際各大公有雲平台,如AWS、GCP、Azure等等,其他像是Box、Salesforce,Splunk也都能夠串接。
而在AIOps平台之上,Splunk也提供了額外的套件選購方案,Splunk IT Service Intelligence(ITSI)是一種監控和分析解決方案,其運用了機器學習以及事件分析功能,來提供包含關鍵IT、業務服務及其基礎架構的運行狀況以及效能指標的可視性。ITSI能夠降低工具和IT孤島的複雜性,跨功能組織和關聯事件並瞭解服務的上下關係,以便更快地進行調查,分析根本原因。而機器學習的演算法則能提醒異常情況,並實時動態調整臨界值。
Splunk Enterprise Security(ES)是資安生態系統的神經中樞,IT團隊能夠藉此快速檢測並回應內部和外部攻擊,簡化威脅管理以大幅降低風險。另外,Splunk for IoT則是物聯網解決方案,能夠協助企業減少停機時間,進而達到節省成本的效果。她提到,Splunk也提供機器學習工具集(Machine Learning Toolkit)可以讓企業自行建立模型,若是企業不想自行建模,則可以選擇ITSI套件來進行預防與預測,其具備的AIOps洞察力將可協助企業檢測問題、簡化調查,並且加速解決。
AIOps不是產品而是旅程
平心而論,就技術面來看,AIOps結合了人工智慧、機器學習以及自動化,確實能帶給企業更直觀的維運方式,然而,對企業而言,擁抱AIOps絕對不像部署一台設備那樣簡單,反而更像是一趟漸進式的旅程。
王小芳指出,許多企業以為,導入AIOps後便能如想像般立即能夠預測、分析,但並非如此。首先,企業必須先從資料累積開始,因為沒有資料就不會累積Know-How。「Splunk 在日前推出Data to Everything平台,著眼的正是資料的重要性,有了資料,就可以累積經驗和智慧,訓練出機器學習模型、提供告警、視覺化以及自動化,進而幫助企業維運IT設備、App應用服務、Security資安自動攻防、IoT物聯網優化管理,著手即時和歷史的商業分析」。
其次,因為企業環境不同,AI引擎還是需要微調才能有好的表現,過程中往往需要經過嘗試錯誤的階段。再來則是要建立服務的關聯性資料集,「根據我們的經驗,企業通常會覺得這是大工程,因為管理人員必須要把所有的機器設備進行徹底的研究與檢查,才能放到CMDB中。」她解釋,其實企業在定義資產的過程中,有時並不會詳細到連設備名稱、型號、IP位置都紀錄下來,更不用說關聯性的建立,特別是有跨其他部門時,往往必須由高階主管交辦下來,成功的機率才會比較大。
成本問題也是一項考量,從人工智慧的角度來看,資料愈完整,訓練出來的模型才會愈精準,但是要收攏多久的資料?30天、60天、1年、3年還是5年?不同的時間區間,其所需要的Splunk的空間以及儲存設備就會有明顯的差距,成本也會不同。最後,則是必須有領域知識的人員加入,當資料類型眾多,哪些資料對模型訓練至關重要,而哪些資料則完全沒有用處,有領域知識的人員加入能夠事半功倍,減少錯誤嘗試。 王小芳建議,企業並不需要一次性的全面性導入,反而可以先從小部門的問題改善著手,等到有所成效時,再擴大到其他部門應用。「就台灣市場來看,政府、金融、製造業以及新興創投公司,對AIOps的接受度較高,原因是這些產業需要在最短的時間內創造最大的經濟效益。從總體市場來看,AIOps還需要一段長時間的推廣,但這個議題已慢慢在台灣市場發酵。」
【專題報導】:發揮AIOps潛力 推動維運革命