隨著智慧型手機、平板電腦普及,人們處理資料的時間,從原本的辦公時段進入到無限延伸,導致資料量急遽爆增,連帶使得「海量資料(Big Data)」議題迅速延燒。
然面對突如其來的海量資料處理需求,大多數企業迄今仍無定見,目前多半只能先以傳統的關聯式資料庫(RDBMS)為運作基礎,再透過「以時間換取結果」方式,藉以獲得海量資料的資料報表。企業抱持相對保守態度的主因,在於現今海量資料處理技術的取得成本偏高,而現階段也尚未浮現殺手級應用,真正需求猶未到位。
以目前看來,In-Memory Database是最常用來彙整處理巨量資料的技術之一,且所費不貲;但筆者認為該項技術的最大問題,未必完全是建置成本太高,而是在於運算效能通常未能依照投資金額呈線性成長,當主機規格的成長已無法減少報表產生時間時,IT就會躊躇不前。
顯然In-Memory Database並非最佳解決方案。那麼是否有其他技術,更適合擔當大任?以目前的趨勢來看,多半是以In-Memory加上欄位式資料庫(Column-based Database)而組成的解決方案。不同於一般關聯式資料庫,欄位式資料庫結構一開始即是以Column作為資料搜尋的基礎,因此精準度更高。不過,這種架構須使用線上分析處理(OLAP)方面的報表處理,才可因欄位式資料庫結構而得利。
就目前企業的運用上,其實還是存在傳統關聯式資料庫搭配MPP硬體的架構,這種作法雖然定位在「一般用途 (General Purpose)」,不過卻能依照硬體規格讓效能呈線性成長,且依舊以Table Model作為資料彙集與搜尋的基礎。這種架構的優點就是總持有成本深具競爭優勢,若與In-Memory與Column-based Database的價格相較,費用成本相對低廉許多,如果再考量後續維護合約費用,差距也就更大。只是這樣的解決方案目前多半應用在金融領域,且還需要時間來成長。
另外值得一提的是,海量資料的重點並不僅止於「海量」的資料,在於資料屬性方面也包羅萬象,涵蓋電子郵件、TXT文字檔、Excel、語音、照片、影像等多樣化的非結構性資料。面對這類型資料的搜尋與分析需求,顯然需要搭配不同於以往的運算模式,正因如此,看來有些神乎其技的「Meaning Base Computing(MBC)」技術,也趁著海量資料議題延燒的當頭,開始獲得愈來愈多企業的關愛眼神。
展望未來,對於海量資料的蒐集、計算、分析、儲存乃至於展現等各類型處理需求,勢必有增無減,因此任何企業都需要對於海量資料處理技術的演進趨勢,抱持莫大關注,以便從中找尋致勝利基。
(本文作者現任HP惠普科技關鍵系統伺服器/儲存解決方案事業部副總經理)