上次才說IT人辛苦,過沒幾天到朋友那裡,就看到桌邊放了一整箱乖乖。挺享受的嘛,我心裡暗想,但見朋友滿臉愁容,讓我想起「機房要放乖乖」這檔事兒。「怎麼?機器不聽話?一箱乖乖也太多了吧?」忍不住調侃他,怎知得到的回答是「沒效啦,那是已經放過的,一點用都沒有,所以我要把它們全嗑了以示懲罰」。鍘乖乖揚威是不錯,但那一大箱零嘴,真要吃下肚,不知是懲罰誰。
我相信朋友的愁容並不是為了得吃一箱乖乖,對很多企業來說,資訊系統管理真是很大問題,尤其現在應用系統複雜、設備眾多、業務倚賴度高,更讓每個MIS戰戰兢兢,每天祈禱不要在關鍵時出問題。但是,子不語怪力亂神,乖乖和祈禱都無濟於事,做好資訊事件管理才能真正保平安。
資訊事件管理是很複雜的問題,許多公司可能多少都具備一些原廠提供的所謂管理能力,如伺服器使用率、網路狀況分析等等,但那只是「點」的資訊蒐集,稱不上管理。因此,當系統發生狀況時,橫跨不同MIS單位常得要從不同的設備中撈出有限資訊,花很長時間分析、追,才能略知原因。這樣完全不符現代化業務需求,就算最後順利排除問題,也已經為時已晚、被老闆罵到臭頭了。
完整的資訊事件管理至少包含「問題確認」、「狀況通報」、「問題解決」和「回復監控」等四個階段。這裡面包含很多情報蒐集、分析、通報對象掌握、細部診斷、協同處理和測試驗證等作業,因為系統的複雜性,必須透過自動化工具才能縮減停機風險,及早將問題解決。
因為應用系統常包括伺服器、儲存、網路等不同設備,所以事件管理自動化的對象一定是全面的平台。它包含有事件蒐集、事件正規化、管理整合的維運平台和豐富應用模型等特色。事件蒐集要求在正確、即時,才不會掛萬漏一,事件正規化則有助於無義事件排除、關聯事件連結,可有助分析判斷。整合的維運要能協助診斷、分析,並且提供可能解決方案KM作為參考。
要能有效排除問題,應用模型占關鍵地位,它可根據系統的應用模式,包括其中人為介入的業務流程,作為判斷問題環節的根據,及早發出問題預警,對MIS來說,防微杜漸才是這行業的極致。
事件管理是一個反覆運作的循環,而不是單純的診斷,除了避免風險外,更重要是有效管理以提高系統效能和可用度;企業可以依自身需求,逐步強化系統強度,當然也就提升了企業競爭力。或者,這至少能減少得吃一箱乖乖的慘劇。