資料湖不僅與巨量資料息息相關,甚至能海納百川,匯入各式巨量、快速與多樣化的資料型態,同時也企圖解決Data Silo(資料孤島)問題,在不複製或移動資料的前提下,依然能夠針對資料進行分析。
自從2011年資料湖(Data Lake)這個名詞問世以來,已經連續幾年,成為各家市調機構年度趨勢預測的常客。有些評論專家認為Data Lake應該改稱為Data River,因為資料湖本身想解決的是資料流的問題;而有些則認為,資料湖是繼資料倉儲(Data Warehouse)、巨量資料(Big Data)後,另一個快速演進的趨勢。
不管如何,Data Lake的潮流勢必還會在未來掀起一番熱烈的討論。EMC台灣分公司業務拓展總監李百飛指出,資料湖不僅與巨量資料息息相關,甚至能海納百川,匯入各式巨量、快速與多樣化的資料型態,傳統的檔案格式、FTP乃至於現今當紅物聯網(Internet of Things)感測器所產生的Log資料,都能支援。而另一方面,資料湖企圖解決的是Data Silo(資料孤島)的問題,並且做到在不複製或移動資料的前提下,依然能夠針對資料進行分析。
資料孤島成蒐集挑戰
在龐大的資料量中萃取出有用的資訊已經成為企業創新營運的一種手段。事實上,從CapGemini與EMC共同執行的調查中更發現,在現今高度的競爭下,掌握巨量資料的管理與分析不只關係到能否創新成功,甚至是影響企業生存的關鍵。
|
▲ EMC台灣分公司業務拓展總監李百飛指出,企業收集了一份資料欲進行分析,卻得花上4至5份的複本才能完成,這不僅意味著巨大的儲存成本與人力資源,還有軟硬體費用的過度投資。 |
在這項名為「Big & Fast Data: The rise of Insight-Driven Business」的調查報告中,有65%的受訪企業承認自身正陷入逐漸失去競爭力的風險,除非積極擁抱新的資料分析技術。另外,有64%的受訪者回報,由於資料分析對傳統營運模式造成改變,所處的行業出現了新的供應商,更有27%的受訪企業回報,加入市場競爭的新玩家是來自其他產業。同時,也有過半數(約53%)的受訪者預期,未來將面臨掌握數據力的新創公司的競爭。
李百飛指出,在資料泛濫的時代,企業無不希望能在龐大的資料中萃取出有價值的資訊,提升企業競爭力,並藉此創新營運,但在這個過程中,企業面臨的第一個挑戰是,資料該如何蒐集?在現今企業各個系統獨立運作之下,資料已然散落在各處,形成Data Silo,例如工廠設備所產生的資料可能存放在一台小型的NAS設備中、與外部承包商的共同討論資料放置在FTP伺服器、零售店頭為了探查使用行為加裝感測器,必須有儲存設備放置其產生的Log資訊,更不用說,在企業內部還有大大小小,不同協定的儲存設備。
資料流動造成更多資料複本
在這樣的環境架構下,企業倘若要利用Hadoop進行巨量資料分析,首先得建立Hadoop叢集,把欲分析的資料從儲存設備複製一份到Hadoop分析平台中,而Hadoop分析平台為了資料保護,會自行多複製兩份,以確保系統能夠順暢運行。
「問題是,分析完後的資訊並不能直接解讀,必須把資料複製回儲存設備才能觀看結果,如果這些資訊希望提供給使用者存取,還得把資料複製到雲端空間,除此之外,資料過期後還要進行歸檔作業。」他指出,分析的過程中有許多資料流,需往不同的目的地,再加上每一個資料儲存的設備,都各自做了不同層級的資料保護,每經過一站資料至少被複製1至3份,最終企業將發現,企業收集了一份資料欲進行分析,卻得花上4至5份的複本才能完成,這不僅意味著巨大的儲存成本與人力資源,還有軟硬體費用的過度投資。
李百飛提到,資料湖概念之所以被提出,就是希望能有一個解決方案可以改善這些困境,透過Data Lake的技術,將四面八方傳送進來的資料,全部蒐集進來放到一個資源池中(Pool)中,而企業在採用Hadoop這類巨量資料分析平台時,也不用再複製多個複本,可直接撈取資源池中的資料進行分析。
|
▲EMC Isilon本身即可作為Hadoop的NameNode及DataNode,做到資料就地保留分析。(圖片來源:EMC) |
EMC Isilon就地保留分析
針對這樣的需求,EMC也發表了一款能夠就地保留Hadoop資料分析的橫向擴充式儲存設備EMC Isilon。這是一款結合橫向擴充(Scale out)NAS、物件儲存以及Hadoop功能的儲存設備。由於其可支援多種協定以及存取方法,例如NFS、SMB、NDMP、HDFS(Hadoop Distributed File System)、以及透過ViPR與OpenStack SWIFT原生物件的Object,因此不僅適用於各種傳統環境,還能支援分析、雲端應用、以及行動資料同步與分享等新一代作業負載。
另外,EMC Isilon的另一項價值則是做到了資料與運算分離。EMC Isilon本身即可作為Hadoop的 NameNode及DataNode。伺服器可透過HDFS通訊協定來存取儲存於Isilon叢集內的資料,如此,企業便能運用MapReduce來進行資料正規化,並且進一步進行分析。
「EMC Isilon是以3個節點為基礎,最高可橫向擴充到144個節點,儲存容量上看50PB,可以做到自動分層儲存(Auto-teiring),以及工作負載的自動平衡(Workload Auto-balance),同時也提供重複資料刪除以及EMC Isilon InsightIQ監控功能。」他說。