Artificial intelligence for IT operations AI就緒基礎架構 Wikibon AIOps 智慧維運 超融合

智慧維運熱潮升溫 業者紛布局各具表述

2018-10-01
傳統訂定IT策略、運用規則的維運方式正面臨嚴峻挑戰,企業需要找尋更智慧化的維運方法來克服這項難題。藉由解析IT系統既有的歷史日誌與效能資料,運用人工智慧相關技術來協助自動化故障檢測、異常判斷,或是提供更視覺化的工具,將能輔助管理人員更快察覺問題根源。
近年來,隨著IT環境愈益複雜,維運管理與部署挑戰也愈形艱鉅,從虛擬化、雲端運算乃至於容器、微服務,在在都加深了IT維運工作的複雜度,更不用說5G、物聯網應用成熟後,各式各樣的前端裝置都有可能承載著服務,這些大量產生的資料以及後端複雜的IT系統與架構,無疑更讓IT維運工作雪上加霜。

IBM全球資訊科技服務事業部資訊系統規劃顧問林倩全指出,現今已有許多解決方案提供了很好的監控管理介面,可以大幅降低維運人員的管理負擔,但企業環境不可能僅僅只有單一品牌,而且可能是多雲環境的應用,在多供應商的情況下,維運管理挑戰勢必更為複雜,其中最明顯的挑戰是,企業愈來愈難找到問題的根本原因(Root Cause)。

舉例而言,過去一台伺服器只承載了一種應用服務,隨著處理器運算力愈益強悍以及虛擬化技術持續進步,單台伺服器上可能承載了二十至三十台虛擬機器,如今容器技術愈益成熟,可預見的未來,單台伺服器可能有上百個容器同時在運行,倘若企業運用微服務架構,那麼單一交易就可能由多個微服務來組成,在這種情況下,一旦交易出現問題,或是服務無法提供時,企業將愈來愈難以察覺造成問題的根本原因在何處?「很明顯地,基礎架構的維運與管理挑戰難度將只會愈來愈高。」他說。

智慧維運新概念

▲ IBM全球資訊科技服務事業部資訊系統規劃顧問林倩全指出,企業環境愈複雜,基礎架構的維運與管理挑戰難度將會愈高。
顯然,傳統訂定IT策略、運用規則的維運方式正面臨嚴峻挑戰,企業需要找尋更智慧化的維運方法來克服這項難題,能不能藉由過去IT系統既有的歷史日誌與效能資料,透過現今當紅的人工智慧相關技術來協助自動化故障檢測、異常判斷,或是提供更視覺化的工具輔助管理人員找出問題根源,是現今IT產業中正在努力的方向,而這也催生了市場發展出AI與Ops結合的新興概念。

調研機構Gartner早期將此概念稱為Algorithmic IT Operations,後改以AIOps(Artificial Intelligence for IT Operations,智慧維運)稱之,並且發表AIOps平台市場報告。Gartner認為,AIOps平台是一種結合大數據、人工智慧或機器學習功能的軟體系統,主要是用於增強並部份取代廣泛的IT維運流程與任務,包含可用性與效能監控、事件關聯和分析、IT服務管理以及自動化。Gartner並且預估到了2022年,將有40%的大型企業會結合大數據與機器學習的功能,來支援或部份取代監控、自動化流程與任務。

由於目前幾乎沒有供應商能夠提供一個很全面的AIOps平台,多數的情況是提供大量的AIOps功能,因此,Gartner也將AIOps能力劃分為11種類別,從歷史資料管理、串流、日誌以及有線網路資料擷取乃至於文件檔案的語意分析與索引、自動化的模式探索與預測(Automated Pattern Discovery and Prediction)、根因與異常檢測,甚至是雲端服務上提供的AIOps服務,都劃歸在AIOps市場類別中。

值得留意的是,儘管「AIOps」一詞目前已開始被廣泛地通用,但不同的分析機構對AIOps的界定並不相同,舉例而言,Wikibon首席分析師James Kobielus認為AIOps指的是AI與雲端基礎架構及維運之間的交集,它包含了兩個方向,一是支援AI的運算平台,其二則是由AI驅動的基礎架構優化工具,藉由AI技術,讓基礎架構及維運能夠持續地自我修復、管理與優化;這些工具可能嵌入在AI工作負載優化的平台中,也可能是以獨立工具的形式來管理眾多的平台。

因此,James Kobielus列舉的供應商方案中,包含了許多AI就緒的運算方案,例如Dell EMC提供AI就緒的儲存、基礎架構設備以及超融合基建等等,而HPE則是在儲存設備中提供自我服務的儲存管理以及預測儲存優化,而IBM則提供了AI基建的參考架構、Power AI伺服器、FlashSystem多雲解決方案以及Storage Insights等等,其他還有NetApp、PureStorage等供應商也在名單之列。

雖然兩大分析機構所稱的AIOps均與IT基礎架構與維運有著密不可分的關連,但Gartner與Wikibon的界定卻是兩種迥然不同方向,因此,考量AIOps目前仍是一個新興概念,而且未來很可能會依據企業的運用情況而修正調整,在本期的專題報導中,將從「維運管理」的角度出發,不管是將人工智慧引用到IT基礎架構與維運、雲端服務供應商所提供的AI維運服務,還是現今熱門的AI就緒基礎架構內所提供的AI管理平台,都廣義地視為AIOps的範疇。

企業環境各異資料至關重要

現階段,多數AIOps供應商採取的策略,主要都是基於多年來累積的客戶經驗與資料,透過大數據以及機器學習等技術,找出其Pattern並且將其訓練成模型,或轉化成工具、平台,以提供給企業快速洞察、自我預測,簡化總體維運的複雜度。此處提及的客戶資料,並非指的是單一企業用戶環境內部的資料,而是供應商從大量機器設備中遙測而得的數據。


▲將AI與Ops結合的新概念,Gartner將其稱為AIOps。結合大數據、人工智慧或機器學習功能的AIOps,主要是用於增強並部份取代廣泛的IT維運流程與任務。(資料來源:Gartner)

對於企業的好處是,維運人員可以克服手動管理所遇到的挑戰,不管是數位轉型帶來的資料量激增難題,還是基於使用者對於即時回應的體驗期望,AIOps都能加速企業對IT事件的反應,而且無須從頭佈建。而對於IT維運人員而言,採用AIOps供應商的方案,可以直接跨越人工智慧的技術門檻,無論是AI監控模型還是自主服務管理,都相對輕鬆容易。

但需提醒的是,個別企業環境畢竟與IT供應商收集而得的客戶資料環境有所不同,初期導入後,多少都需要一些時間調校,許多專家都建議,企業不妨先訂定一個準確率目標,然後再運用內部的數據持續地訓練、調校參數,以便取得最佳的成果。Hitachi Vantara台灣區資深技術顧問梁萬宇指出,一如企業導入新設備需要經過調校才能更符合自身環境一樣,供應商訓練好的AI模型仍需企業不斷提供資料,才能讓模型持續地學習,並且讓預測洞察更貼近企業實際環境;一般來說,效能預測通常可以很快調整完成,但容量預測方面,就得視企業環境而定,如果企業一年半才需要擴充基礎架構資源,持續調校的時間就需要拉長。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!