市調機構IDC針對台灣IT發展趨勢預估報告指出,2013年將是巨量資料(Big Data)實踐元年,可說是繼雲端運算之後又一股新型態發展動能,眾家解決方案廠商自然不會缺席,不僅相繼由不同角度提出各自的看法與應用模式,甚至還因此大量增加「資料科學家」(Data scientist)的IT職務。
目前在台灣,巨量資料具體的應用模式較多偏向電信、金融、製造等大型組織,一般企業應用環境而言雖尚未成為主流,卻不可忽略其最新發展,才能與時俱進,在必要的時候導入運用。
以往企業以關聯式資料庫為核心蒐集與分析的商業智慧,屬於結構化資料。但是隨著網路應用服務變得多元,以往獨立存在的檔案格式,如影片、聲音、網路社群分享資訊等,則被歸類為非結構化的資料;再加上還有類似CSV檔案格式的半結構化(Semi-structured)資料,皆也要能夠被有效管理,並進一步萃取與分析成為商業智慧。IBM軟體事業處資深資訊工程師張寅建指出,如今要能稱得上Big Data應用平台,要擁有四個V的能力,就是資料量(Volume)、多變性(Variety)、時效性(Velocity)、真實性(Veracity)。
IBM以Hadoop為基礎 統整巨量資料
IBM InfoSphere BigInsights是實現Big Data的基礎,以Hadoop系統為核心,利用其HDFS(Hadoop Drstributed File System)檔案系統與MapReduce架構來分散存放大量資料,且內建Hadoop Cloudera,降低組態與管理門檻。
|
▲IBM整合所有產品線,實現Big Data平台所需具備的:資料量(Volume)、多變性(Variety)、時效性(Velocity)、真實性(Veracity)的資料處理與分析能力。(資料來源:IBM) |
張寅建解釋,實務應用是以套件方式建置。就語意分析套件而言,例如在社群媒體上出現對某項產品的評論,可能觸發社群中其他人的情緒,即可藉此作語意與情緒方面的分析,以了解評價屬正向或負向;再比如另有一個套件是屬於機器學習(Machine Learning),因為大量資料中含有許多參數值,要運算進而判斷事件並不容易,對此在BigInsights處理平台就內含許多Pattern來協助。至於針對已蒐集累積的資料作分析,進而預測未來,則可利用Cognos來協助分析,並以SPSS作資料採礦(Data Mining),如此產出的結果即可成為未來決策參考。
而整個資料的處理流程所產出的資訊,重要性較高的部分亦可從BigInsights平台中再匯出至IBM Netezza或其他資料倉儲(Data Warehouse)系統中保存,之後需要分析資料時再進行撈取成為參考依據。
應用MapReduce技術 Splunk切入資安預警
原本是提供處理大量機器資料解決方案的Splunk,正逐步增添資安方面的管控解決方案。其處理大量資料的技術是利用MapReduce方式來實作,Splunk台灣分公司總經理林岳樺說明,先不論資安方面的應用,Splunk本身就是一個擅長處理Big Data的搜尋引擎與分析平台,與Google、Yahoo等搜尋引擎不同的是,Splunk處理的是機器設備資料,且可以進一步即時呈現統計分析數據與報表。
日前發佈的Splunk App for Enterprise Security 2.4版,是特別針對資安監控而開發,提供進階的威脅偵測搜尋,並以儀表板與視覺化方式,來呈現統計資料與分析結果,協助找出異常活動並偵測攻擊模式。Splunk亞太區銷售工程總監Paul Pang表示,其運作方式就類似SIEM(Security Information and Event Management),所不同的是,SIEM無法處理複雜較高的非結構化資料,但是現代難纏的資安事件,大多屬未知型攻擊,必須經由蒐集更多統計資料才有辦法突顯真正的問題。
「而Splunk App for Enterprise Security不僅可在完全不用代理程式之下處理Big Data,也不需要傳統Schema,透過關連性搜尋(Correlation Search)即可如同使用搜尋引擎般找尋資料,讓不同職務的人得以輕易用相同平台處理日常資安管理,例如監看網路運作狀態、製作相關報表等方面。重點是,其運用MapReduce技術處理大量資料,進而加以分析,才得以讓資安人員及時發現未知型攻擊的線索,進而針對不同應用情境、文化、傳輸內容、使用行為等,來自定告警(Notable event)。」
有別於許多Appliance式的Big Data解決方案,Splunk是以軟體式提供,可安裝在Linux、Solaris、AIX、Mac OS X以及Windows等作業系統。林岳樺認為,「現在Big Data的議題讓Hadoop受到關注,但是卻少見把Hadoop應用在資安方面,因為資安分析具有即時性,而Hadoop主要是作批次(Batch)儲存,即時處理並非其強項,因此才需要搭配Splunk來達成。」
騰雲計算顧問服務 助企業活用Big Data
騰雲計算可說是國內早期投入研究Hadoop來實現Big Data應用的團隊,加入自行研發的控管機制,成為BigData海量分析平臺解決方案,為企業提供維運管理、行銷分析、製程良率等應用模組建置服務。「至於在資安方面運用Big Data來實作,則主要跟內部應用系統有關,其應用於母公司趨勢科技的Smart Protection Network,可以快速地處理分析病毒資訊,並提供解藥。」騰雲計算事業開發協理陳志昇表示。
而騰雲計算主要的業務是在顧問服務,畢竟Big Data門檻不低,再加上企業根本還不清楚可用的分析,因此現階段顧問團隊的協助就會顯得重要性較高。「就如同開發人員雖懂程式語言,卻不知道該開發什麼軟體。因此我們顧問服務會跟客戶談需求,大多是客戶既有一些想法後才會開始討論可行方案。」
在Big Data被喻為是未來新興應用趨勢後,陳志昇也曾遇過企業端提出Big Data建置需求,但是卻不知應用需求為何,對此陳志昇建議,先上課了解Big Data的內涵,之後再思考如何跟企業內部營運項目結合,才能發揮效用。
張寅建亦認為,台灣在這方面還在觀念接受階段,因此現階段是要讓企業先建立正確概念,之後再評估各家IT廠商能否提供相對解決方案,但絕不僅是一個平台而已,還必須包括在不同產業可能的應用模式。當然,解決方案供應商未來在不同產業應用累積經驗後,也許可設計成為類似套裝的應用模組樣本,來協助更多企業快速導入應用。