資料湖倉 Data Lakehouse 資料湖 Data Lake 資料倉儲 Data Warehouse BI 商業智慧 資料科學

資料湖倉漸受企業青睞 未來三年發展可期

BigLake簡化資料架構 歐洲電商巨頭導入見效

2024-05-16
短短幾年,資料湖倉(Data Lakehouse)概念便已在各個產業中落地,包含電子商務、零售、航空、遊戲、金融產業均已有先行企業採用。根據市場研究公司Propeller Insights調查,有70%的受訪者表示,三年內將有超過一半的分析會在資料湖倉上進行;另外,也有56%的企業認為若移轉到資料湖倉,將可節省五成以上的分析費用。成本效率與易用性是企業採用的主因。

歐洲電子商務巨頭Bol.com就是一典型的案例。作為一家快速發展的電子商務公司,Bol.com不只銷售自家產品,在平台上也有超過45,000家的合作廠商,在黑色星期五的銷售檔期,每天可以銷售多達100萬件的商品,每年平均商品銷量3,000萬件,不難想見,Bol.com每年的資料量都在快速增長。

自2010年起,Bol.com就把大數據儲存在Hadoop上,除了自行安裝、升級和維護Hadoop叢集的挑戰外,原先35個節點叢集也不敷使用,在運行一些Hadoop工作時,需要花費許多時間。再加上IT團隊把大部分的時間都花在開發Java-Spring應用程式上,很少使用Hadoop,因此難以累積相關知識。為了解決這些問題,Bol.com導入Google BigQuery平台,除了用來業務分析找出產品異常之外,也運用於商業營運(BI),產出每天的銷售報表。

隨著資料越來越複雜,且在不同的資料環境中激增,Bol.com選擇部署了BigLake儲存引擎,這項服務能夠統一資料倉儲以及資料湖,可簡化使用者存取資料倉儲和資料湖資料,同時還可以運用細粒度存取控制功能,並加速分布式資料的查詢效能。對於Bol.com而言,BigLake協助他們透過視圖的訪問權限控制,發掘資料湖的價值,同時為使用者提供統一的介面並保持較低的資料儲存成本,而且還能讓使用者加速分析資料集。

統一平台兼具資料處理與資料治理

Google Cloud台灣技術副總經理林書平指出,資料湖倉是一種現代化的資料架構,能支援機器學習、商業智慧分析(Business Intelligence)和預測分析(Predictive Analytics),企業也可以利用低成本、彈性高的儲存空間存放所有類型的資料,包含結構化、非結構化和半結構化資料,同時也提供資料結構和資料管理功能。

BigLake架構圖。(資料來源:Google Cloud)

傳統上,資料倉儲和資料湖必須作為單獨的架構來實現,以避免底層系統過載並造成爭用相同資源的問題。一般而言,企業會使用資料倉儲來儲存商業智慧和報告的結構化數據,並使用資料湖來儲存機器學習(ML)工作負載的非結構化和半結構化資料。但是,一旦任一架構的資料需要一起處理時,資料便需要在這兩個系統之間進行轉移,從而造成複雜性、更高的成本以及資料新鮮度、重複和一致性方面的問題。

「資料湖倉強調的是在一個統一平台上,提供分散式資料處理和資料治理功能,因此簡化架構是其優勢之一,使用者只要管理和維護單一的資料存放庫即可,而且資料使用者也可以直接將工具連結到原始資料,免去資料萃取、轉換、載入(ETL)到資料倉儲的繁複流程。」他提到,其他優勢還包含可提升資料品質、降低成本、提高可靠性、改善資料治理、降低資料重複儲存、多元工作負載以及具備更高擴充性。

舉例而言,資料湖倉能強制執行結構化資料的架構(Schemas)和資料完整性,讓資料保持一致性,同時也能縮短新資料可用的時間;並減少資料在多個系統之間的ETL傳輸,降低資料移動過程中可能發生的品質或技術問題,從而提高可靠性。

因為採用的是低成本的雲端物件儲存,再加上不用同時維護獨立的資料倉儲和資料湖泊,因此有助於降低成本。而且,運算資源和儲存空間可以獨立擴充,因此企業可以根據業務需求,分別調整運算能力和儲存空間的配置,提供近乎無限且即時的彈性。

此外,當資料與資源被集中在一個地方,資料治理和安全控制的實施、測試和交付更加容易,也有助於改善資料治理;甚至可以幫企業建立單一資料源,讓全公司都可以共用這個資料來源做決策,避免資料不一致以及因資料重複儲存而產生的額外成本。對於使用者而言,可直接將多種工具連接到資料湖倉,從同一儲存庫支援分析、SQL、機器學習和資料科學。

三層次框架建構資料湖倉

簡單來說,資料湖倉使用與資料湖相同的低成本雲端物件儲存,以便於配置和擴展。就像資料湖一樣,各種原始的資料類型都可以存放在其中。而在這層儲存層之上,還整合了元資料層(Metadata Layers),以提供類似資料倉儲的功能,例如結構化模式、對ACID事務的支援、資料治理以及其他資料管理和最佳化功能。

從框架來看,Google Cloud的Data Lakehouse主要有三層,儲存層是所有原始資料的資料湖層,通常是所有非結構化、結構化以及半結構化資料集的物件儲存,並且與運算解耦(Decoupled)。暫存層(Staging Layer)則是位於資料湖層之上的元資料層,其提供了儲存中所有資料物件的詳細目錄,以及資料管理功能,如Schema限制、ACID Properties、索引、快取以及存取控制。語意層(Semantic Layer)即Lakehouse層,能公開所有資料以供使用。

林書平提到,Google Cloud的策略是統一企業資料營運、資料湖和資料倉儲的核心能力,因此資料湖倉的核心是BigQuery的儲存和運算能力。BigQuery不僅整合了Google Cloud生態系,還允許企業使用合作夥伴和開源技術,將資料湖和資料倉儲的最佳功能整合到單一系統中。企業也可以運用Dataplex以便建立、管理、保護、組織和分析資料,落實資料治理。

此外,Google Cloud推出了統一儲存引擎BigLake,其可簡化存取資料倉儲和資料湖泊的資料。企業可以運用細粒度存取控制功能,加速分布式資料的查詢效能。「BigLake除了提供更精細的安全控制外,還可運用於多計算分析,企業可以在Google Cloud和開源引擎(包括BigQuery、Vertex AI、Dataflow、Spark、Presto、Trino和Hive)上透過BigLake連接器統一存取,」他強調,BigLake專為人工智慧打造,BigLake的物件表可讓受治理的AI工作負載中使用多模態資料,企業可以使用BigQuery SQL及其Vertex AI整合輕鬆建構AI使用案例。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!