AWS推出全新的資料管理服務Amazon DataZone,可以讓客戶更快速、更輕鬆地對存在AWS、客戶本地和第三方來源的資料進行目錄分類、探索檢視、共用與治理。借助Amazon DataZone,資料管理者可以使用更精細的控制工具以管理和掌控資料存取權,確保資料在正確的權限和使用情境下被存取。Amazon DataZone使工程師、資料科學家、產品經理、分析師和商業用戶可以輕鬆存取整個企業的資料,從而探索檢視、使用資料,透過資料協作獲得洞察。
現今,企業收集資料量已龐大到PB甚至EB級別,這些資料來自不同的部門、不同的服務、不同的本地資料庫以及第三方廠商(如合作夥伴解決方案和公共資料集)。在企業可以靈活運用資料前,作為資料生產者與系統管理者,資料管理員需要在允許資料被存取的同時,妥善地控制和治理資料,確保資料只能由正確的人在正確的情境下存取。
另一方面,整個公司的員工(如資料消費者)都希望探索檢視和分析來自資料生產者的資訊,以制定決策。妥善控制資料可以確保資料的安全性,而存取資料能夠產生資料洞察,企業必須在二者之間尋求平衡。
然而,企業內部資料多樣、部門林立,且使用情境不同,這些都是在資料治理上所面臨的挑戰。有些企業透過建立目錄來管理資訊,然而維護目錄系統非常耗時,不僅必須仰賴資料生產者手動標記每個資料集,並額外註記來源或描述等資訊來確保資料可以被檢索,同時缺乏內建的存取控制以簡化資料治理。企業也難以保持資料分類的一致性,且各個資料生產者必須保持自己的資料能即時同步,使得整個企業中搜索資料變得非常困難,並可能導致資料過時。在這種情況下,資料消費者即使找到所需資訊,也無法快速透過目錄直接向資料擁有者請求存取權限,也無法載入資料分析服務以及與他人協作。最終,決策者將無法及時獲得所需資訊,或者可能根據不完整或過時的資料做出欠佳的決策。
Amazon DataZone是一個全新的資料管理服務,能夠協助資料生產者輕鬆管理和掌控資料存取權,使資料消費者能夠探索檢視和使用資料、展開資料協作以獲取商業洞察。資料生產者可以透過Amazon DataZone入口網站定義資料分類、建立治理策略,並連接一系列AWS服務(如Amazon S3和Amazon Redshift)、合作夥伴解決方案(如Salesforce和ServiceNow)和本地系統,從而創立自己的資料目錄分類。
Amazon DataZone使用機器學習為每個資料集收集和建議詮釋資料(Metadata,如資料來源和資料型別),並根據客戶的分類和偏好進行模型訓練,不斷優化,進而消除資料目錄維護的繁瑣。設置目錄後,資料消費者可以使用Amazon DataZone入口網站搜索和檢視資料、檢查使用情境中的詮釋資料、以及請求資料集存取權限。當資料消費者開始分析資料,他們會創建一個Amazon DataZone資料專案,也就是入口網站的共用空間,用戶可在其中存取不同的資料集,並與同事共用存取權限、進行分析協作。
Amazon DataZone與Amazon Redshift、Amazon Athena和Amazon QuickSight等AWS資料分析服務進行整合,資料消費者能夠在資料專案的情境中存取這些服務,他們的資料在這些服務中可自由使用、無需個別單獨登入。Amazon DataZone也提供應用程式設計開發介面API(Application Programming Interface)以整合客製化解決方案或與DataBricks、Snowflake和Tableau等合作夥伴進行整合,使客戶得以輕鬆發布、搜尋和使用所有資料。