AWS在2024年re:Invent全球大會上,宣布雲端可大規模擴展的物件儲存服務Amazon Simple Storage Service(Amazon S3)推出新功能,使Amazon S3成為首個全受管支援Apache Iceberg的雲端物件儲存,進一步提升資料分析速度,並以最簡單的方式儲存和管理任何規模的表格資料。
新功能還包括自動生成可查詢的中繼資料,簡化資料探索與理解,助力企業充分挖掘Amazon S3中的資料價值。
- Amazon S3 Tables是首個內建支援Apache Iceberg表格的雲端物件儲存服務,推出新型儲存貯體,以Iceberg表格的形式優化儲存和表格資料查詢,查詢速度最高可提升3倍,每秒交易處理量(TPS)可提高10倍,並自動化表格維護和分析工作負載。
- Amazon S3 Metadata自動擷取可查詢的物件中繼資料以及使用物件標籤的客製化中繼資料,並將結果儲存於Amazon S3 Tables中,以加速資料湖分析,實現近乎即時的資料探索。
Amazon S3 Tables和Amazon S3 Metadata現已與Apache Iceberg表格相容,企業可以使用AWS分析服務以及開源工具,包括互動式查詢服務Amazon Athena、雲端原生無伺服器BI服務Amazon QuickSight以及Apache Spark輕鬆查詢資料。
如今,許多用戶都以表格來組織用於分析的資料,這些資料通常儲存在Apache Parquet中,這是一種優化資料查詢的檔案格式,而Parquet已成為Amazon S3中增長速度最快的資料類型之一。使用者希望能查詢這些不斷增長的表格資料集,通常會使用開放表格格式(open table formats,OTF),一種以表格儲存資料的開源標準,有助於更有效地管理、更新和追蹤大量資料的變化。隨著客戶使用Iceberg處理PB級至EB級資料的數十億個檔案,以Iceberg管理Parquet文件已成為最流行的OTF。
然而,隨著客戶規模擴大,管理Iceberg變得極具挑戰,往往需要專業團隊來建構和維護系統,進行表格維護、資料壓縮以及存取權限管理。這些外部系統成本高昂且複雜,還需要專業的團隊來維護,佔用了企業許多寶貴資源。
Amazon S3 Tables專為管理資料湖中的Apache Iceberg表格建構。Amazon S3 Tables專門針對分析工作負載進行優化,與通用的Amazon S3儲存貯體相比,提供高達3倍的查詢效能和10倍的每秒交易處理量。Amazon S3 Tables能自動管理表格維護任務,包括為了更好的查詢效能進行壓縮,以及快照管理,即使用戶的資料湖不斷擴大和發展,也能持續優化查詢效能和儲存成本。企業僅需建立一個表格儲存貯體,即可使用Amazon S3 Tables優化儲存和查詢全受管的Iceberg表格中的資料。
借助Amazon S3 Tables,企業將受益於Iceberg的多項功能,如資料列層級交易處理、透過時間旅行功能查詢快照、模式演進(schema evolution)等。此外,Amazon S3 Tables還提供表格層級的存取控制,讓用戶精準定義資料存取權限。