Business Intelligence Hadoop for Windows Data Warehouse SQL Server Microsoft MapReduce key/value Velocity Big Data Volume Variety Oracle Hadoop Value NoSQL 巨量資料 海量資料 精誠資訊 OLTP 商業智慧 SQL ETL IBM Etu BI HP Re

用Big Data創造競爭力 企業市場期待

2012-09-06
巨量資料(Big Data)可說是近年來隨著雲端運算之後另一個被關注的議題。去年麥肯錫全球研究中心發表針對全球資料研究報告提到,全球資料量的累積將每年以40%成長,從2009年至2020年估計成長約44倍。而行動裝置普及後造就無所不在的上網行為,除了改變人們的生活,也促使企業端Big Data議題浮上檯面。
本土企業Big Data問題現況

除了資料量(Volume)龐大之外,Big Data的特性還包括增長的速度(Velocity)、資料型態的多樣性(Variety)以及商業價值(Value)。

就本土企業而言,HP Vertica事業群大中華區總經理廖智寧觀察到,在很短時間內要分析處理大量資料,或是每年成長40%的資料量,對於台灣電信業、高科技製造業,的確是個頭痛的問題。

主要需求來自於現今市場變化快速,以電信業者而言,所有連線被要求需經過特定設備,以便記錄這些上網行為備查,除了做為消費者行為分析等商業用途外,還有一個重點就是法規遵循。但行動設備上網人數越來越多,設備產生Log檔的速度,已高達每秒鐘30萬筆,這些紀錄檔案的量已超越以往所規劃,僅是儲存資料就是個挑戰了,更何況還要再進一步處理這些資料。

而高科技製造業也開始出現Big Data問題。他們發現,當製程往前進一代,像是從45奈米提昇到28奈米,晶片密度越來越高,單位面積裡的電晶體數量越來越多,因此在生產線管理階段,為了提昇良率會以各種不同方式做檢測,所產出的資料量也相對暴增;又如機台資料送到後端進行分析,以往大約花費30分鐘,如今必須縮在2分鐘內完成,此類應用模式皆屬於本土企業目前已面臨到Big Data的問題。


▲同樣是從資料的獲取、組織,最後做分析,傳統關聯式資料庫架構平台(下)與Big Data處理平台(上),各自有其不同方式實作。

技術採用尚在概念創新階段

精誠資訊雲中心負責人蔣居裕引述美國知名的科技行銷大師Geoffrey A. Moore,曾針對Big Data議題以新科技技術採用生命週期(The Technology Adoption Life Cycle)做分析,即使是最早提出此議題的美國,從電子商務到一般企業內部皆有相關應用,Moore認為Big Data仍然只是位於早期採用者階段,對台灣而言更僅是個創新應用。

而此階段的特性是以專案方式來執行,針對特定的問題量身訂做,尚未進入早期大眾的應用。也就是說,Big Data若要到達主流市場的應用,必須要經過鴻溝(Chasm)的考驗,蔣居裕估計,至少還要2至3年時間才有可能跨越。他說明,跨越鴻溝之後會到另一個階段,也就是形成針對某些特定行業,解決一些共通的問題,發揮特定價值的解決方案。在此階段累積足夠能量後,才會變成是一種標準化產品。

然而目前台灣企業是否已經意識到可以做Big Data的處理?就蔣居裕觀察,其實台灣目前有意識到公司內部有Big Data可以進一步處理,較侷限在大型企業,也才有夠大規模的資料量,其研發部門會先調查可採用的方案。超過他預期的是,這些技術人員多數都對Hadoop有概念,只要有定義清楚的結構化、半結構化與非結構化資料,很容易即可理解,而現在Big Data要處理的即是針對以往被忽略的半結構化與非結構化資料。

從中找出商業價值才是關鍵

資料處理的意義,在於把原生雜亂的資料經過整理與分析之後轉化為有意義的資訊,熟知的作法是將資料予以結構化,經由關聯式資料庫收集與整理,建立正規化的處理過程,讓資料保持一致性,以便於透過諸如商業智慧(Business Intelligence)等軟體工具產生對企業營運有幫助的報表,提供管理高層做決策時參考。至於其他無法被結構化的資料,皆為Big Data處理的範疇。

微軟營運暨行銷事業群產品行銷經理周慕義表示,目前備受關注的Big Data議題,如果從儲存的角度,就是以大量資料管理為主,運用資料生命週期管理(Information Lifecycle Management,ILM)模式,把比較常用的資料放在存取速度較快的儲存設備;若為系統硬體廠商,則是著重在大型機器做平行處理。但處理Big Data最終的目的是為了能夠做商業智慧分析。

難道過去就沒有Big Data嗎?周慕義指出,過去的確沒有這麼多行動裝置,但過去其實就有Big Data存在,例如RFID(無線射頻辨識)所產生的Log,差別在於,過去產生的方式不是透過行動裝置或網路社群,且以往的Big Data只是用來翻找資料或軌跡紀錄。而近年來開始強調Big Data,就是因為要對這些資料做商業智慧,企業若不想做分析、不需要設法從中萃取出有用的資訊,也就沒必要對這些龐大資料做進一步處理。

影響Big Data的發展因素

所以說Big Data本來就存在,只是近年來開始有企業運用了跟過去不一樣的方式去處理這些資料,因而產生了強大的競爭優勢,才逐漸受到關注。要從大量資料中找出有用的資訊,過去的作法多仰賴建置資料倉儲,透過抽取-轉換-載入(Extract-Transform-Load,ETL)工具,讓資料經過整理後存到資料庫裡,才能進行分析。但周慕義說明,現在的思維卻是,這麼大量的資料要做分析,要建置一套價格不斐的倉儲平台,只為了做一件事,似乎沒甚麼效益。

於是轉向尋求另一種實作方式,也就是NoSQL,把商業智慧要做的分析演算,直接在檔案存放的位置執行,不必再透過倉儲系統與ETL工具,且可以達到分散式的處理,再把結果送回資料庫。

但問題是,以往的做法是全部匯入關聯式資料庫用統一模式做,資料庫有固定模式、資料型態,且資料已經過整理,所以只要用標準SQL語言,就可以做各種形式的處理;反觀,NoSQL要把運算行為在資料庫外部執行,表示要先知道檔案格式的規則,及其儲存的方法,才有能力去撰寫資料分析的程式,在各個儲存點做分散式運算處理後取回,效能雖好,門檻相對也較高。

除此之外,更複雜之處在於須具備領域知識(Domain Know-How),因為欲分析資料,要對產業足夠了解,如此撰寫程式去執行分析才會有收穫。

企業核心系統運用關聯式資料庫至今已二十多年,而NoSQL近年來才開始有越來越多的採用者,邏輯思維與技術架構皆不同,要導入Big Data來處理與分析,技術人員是否能快速學習跟上,同樣是影響未來市場發展的關鍵之一。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!