巨量資料(Big Data)統計與分析技術,可處理數量龐大、即時、多樣性的資料,協助企業開創新商機。只是Big Data應用的建構,從資料的蒐集、儲存、管理、分析、呈現等不同環節,皆需有相對應的技術與專家來實作,市場上亦出現商業化方案,以降低進入門檻。
互動查詢實踐接近即時資料分析
2011年成立的Etu,可說是本土早期發展Big Data的技術提供者。精誠資訊ETU負責人蔣居裕指出,Etu成立之初,即基於Cloudera提供的Hadoop平台研發控管、部署等機制,發展成為Big Data應用軟體與硬體整合完成的解決方案,也是Cloudera在亞洲區唯一的獨立硬體廠商(Independent Hardware Vendor,IHV)。從規劃、建置,到後續的教育訓練、維護,皆是由Etu技術團隊提供相關服務。
Cloudera是全球最早把Hadoop開放系統平台商品化的廠商之一。而Etu為了貼近企業IT應用環境,對於管理、自動部署、安全性等方面,勢必需要持續不斷地強化,正是Etu技術團隊可發揮之處,因應市場需求變化,自行研發設計相關機制。
Big Data發展至今,關注的焦點已朝向Real-time或Near Real-time的實踐,像是Splunk等技術提供者皆有提出自家的作法,以互動查詢方式快速地從資料倉儲中撈取資料,不再僅是搜尋引擎而已。蔣居裕進一步說明,所謂的互動查詢較著重於將傳統資料倉儲的概念在Hadoop環境實踐,不僅可深入分析,且是以互動式、探索式的分析,以達到Near Real-time。
雲端服務Big Data平台 降低建置成本
多年來,Etu在本土專注於教育推廣Big Data的技術與應用,蔣居裕從解決方案廠商的角色觀察,欲發揮Big Data的價值,必須由三方面來支持。首先是資料擁有者,畢竟再先進的Big Data技術、分析軟體工具,若缺乏資料即無用武之地。一旦握有資料,即可無限制的使用,且愈用價值愈高。
其次是行業市場,至今的Big Data應用仍正在跨越鴻溝(Chasm)階段,在邁向主流發展過程中,必須依據特定行業設計相符合的解決方案,例如現階段對於Big Data價值的急迫感,較偏重於電信、零售、電子商務等特定行業;最後則是具備端到端的解決方案。常見有預算建置系統平台的企業,卻未必有人才能夠自建Big Data應用,往往必須仰賴解決方案供應商協助打造,借助端到端的解決方案之力,即可降低進入門檻。
「Etu至今大致已完成行業市場與端到端解決方案,今年開始,將從解決方案供應商的角色朝向服務供應商邁進,也就是透過標準化雲端服務模式,讓更多有應用需求卻苦無預算的中小企業,得以採每月支付,或按用量計費方式,運用Big Data分析平台為營運創新。」蔣居裕說。同時,Etu亦可藉此成為資料擁有者,進一步偕同合作夥伴打造「Data Product(資料產品)」。
|
▲Etu提供軟體與硬體整合的Big Data分析解決方案,包含Etu Recommender精準推薦與Etu Insight消費者行為分析應用。(資料來源:www.etusolution.com) |
他進一步說明,所謂的Data Product,其定義是單一或多種資料進行處理、分析之後,再用各種形式交付的產品或服務,實務上可能是如同商業智慧分析軟體系統,或如同Google、Facebook等平台,運用使用者所產生的Data來強化功能,例如銷售關鍵字廣告、推薦廣告等,皆可稱之為Data Product。此外,Data Product亦可能是一個結構化的資料庫或檔案,透過API方式交付,提供開發人員運用,進而創造分析報表、視覺化圖表等應用。
欲發展可被交付的Data Product,讓用戶可藉此創造價值,蔣居裕認為必須包含五個要件,包含:專案團隊、資料擁有者、領域知識、功法(工具、技能、方法論)以及心法(對Big Data應用價值的信念)。由此不難發現,發展Big Data應用以萃取創新價值,不能僅是仰賴IT,更多是企業經營管理層次的課題,必須要由高層管理主導專案執行,才得以突破跨部門溝通與協作的瓶頸。
日前Etu已宣布推出宣布第一個Data Product─BestSales氣象經濟指標,其為偕同天氣風險管理開發共同發展的氣象Big Data平台,利用氣象數據與企業銷售資料建構預測模型的資料產品,可協助天氣因子關聯度高的行業,做到更準確的商品行銷、業務與供應鏈管理。
以多結構化資料倉儲為核心發展
現代企業不論是發展客戶洞察相關的線上行為分析、推薦系統、精準行銷等應用,抑或是物聯網的雲端分析系統,後端勢必需要建立多結構化資料倉儲,來蒐集、儲存、處理所有資料。就傳統的資料倉儲來看,主要是將企業內部的ERP、CRM等各種資料庫彙總至資料倉儲,進而運用商業智慧軟體執行分析,取用的資料來源皆是結構化資料庫。
對於電信、金融行業,此應用模式可能已存在近二十?年,如今之所以需要在資料倉儲加上多結構化,即是為了因應新型態的非結構化與半結構化資料加入,但新型態資料無法直接被匯入,必須先行轉換為結構化後,才能彙整至資料倉儲。
「資料倉儲將成為所有資料最後彙總的地方。」蔣居裕強調。通常要作後續的分析確實是需要全數彙總至資料倉儲,今日所有的電信業都是仰賴資料倉儲出帳單,不可能驟然被取代或撤換,仍會維持傳統運行方式,至於新型態的資料來源進入資料倉儲及其分析機制,則是採用新的軟體堆疊來實作,像是Hadoop平台環境透過Hive工具介接,並搭配Impala提供資料線上分析(OLAP)與查詢機制。
主要是由於前端的應用程式,欲增添新型態資料的存取與分析,程式勢必得經過改寫,如此龐大的核心系統萬一出錯,將可能為企業營運帶來災難。因此通常是新的分析應用才會用到多結構化資料倉儲,或是礙於擴充既有的資料倉儲成本過高,所以額外增添分析資料採用新架構執行,建置成本相對較低。
只是過去近二十?年的資料倉儲皆是透過SQL語法執行,轉換成多結構資料倉儲環境,資料庫管理者或資料需求者勢必需要歷經一段學習曲線,因此要從Big Data相關工具軟體的操作介面設計著手,設法在不用顛覆既有的知識下直接可取用,以發揮Big Data優勢,挖掘出更多有價值的資訊。