Azure

完整涵蓋Azure Data Fundamentals認證考科綱要必備知識

從核心概念到試題解析 搞定Azure資料核心技能

2023-05-08
Microsoft Certified Fundamentals(MCF),由微軟與國際專業認證考試機構Certiport合作推出。依工作角色職能規劃認證類別,角色職能含概系統管理員、DevOps工程師、資料工程師、程式開發人員、AI工程師、商務功能顧問、安全性工程師、資料科學家、雲端解決方案架構師。透過MCF使應試者以階段式全盤理解微軟雲服務在人工智能、大數據、資料科學、商業智慧和雲端運算等領域的實務應用。本書整理Azure Data Fundamentals認證考科綱要所涵蓋的知識,包含核心資料概念、如何在 Azure上使用關聯式資料與非關聯式資料以及Azure上的分析工作負載,考生可透過本書各章節重點內容,迅速掌握應考方向與重點。

現今世代的資料產生速度、種類及數量與時俱增,資料倉儲(Data Warehouse)已經是大規模(Large-scale)等級。所謂大規模資料倉儲有幾個要項,第一就是資料產生與處理速度(Velocity),由於資料更新速度不斷加快,系統能否有效率地轉換數據成為即時有用資訊,這段決定資料倉儲是否為大規模等級。

因網路盛行,社交軟體使用率頻繁,物聯網(IoT)蓬勃發展,數據產生的種類變異性大,不同設備產生的數據格式差異甚大,從簡單文字格式到二進位元語音、影片到影像,資料倉儲領域的變異性(Variety),也是決定大規模等級的關鍵因素。

最後決定大規模資料倉儲的要項是數量(Volume),資料數量從Byte、Kilo- Bytes、Mega-Bytes、Giga-Bytes甚至到Tera-Bytes、Peta-Bytes與Exa-Bytes逐漸成長。再從資料管理角度來看,數據數量不同,對應管理也就不同,在數據量足夠的狀況下才能洞察數據背後的意義。

大規模等級資料勢必會面臨到3V,分別為Velocity、Variety與Volume,在本節【大規模資料倉儲】模組中將學習到以下的觀念。

˙什麼是大規模資料倉儲

˙資料擷取和處理管線

˙分析資料存放區

˙選擇分析資料存放區服務

什麼是大規模資料倉儲

資料倉儲的觀念起源於1980年代,它的基本定義如這段內容闡述「A subject-oriented, integrated, non-volatile, variable data repository over time to support management decisions」。它是一種主題導向,可整合多種資料,將資料儲存在特定處,伴隨時間的改變提供完整的資訊給企業進行決策參考。

從字義來說,資料倉儲就是彙整所有不同資料來源與不同資料格式(結構、半結構與非結構),利用各種資料整合工具(ETL或ELT),儲存整理過後的資料在共通的儲存體(Repository),早期的儲存體泛指關聯式資料庫,直到近幾年才發展出資料湖儲存檔案型態資料。  

資料倉儲存放在關聯式資料庫之中,就會存在維度資料表(Dimension Table,它就是分析角度),譬如產品、地區、時間等等。維度資料表中存在更細微的屬性 (Attributes)資訊在資料行,譬如產品維度的顏色、大小、重量,地區維度的國家別、省分別、鄉鎮縣市別等。

針對交易數據如購買數量、金額等數字資訊所儲存的資料表,稱之為事實資料表 (Fact Table)。在關聯式資料庫的資料表,根據維度資料表的主索引鍵與事實資料表的外部索引鍵關係,就形成大家熟知的星狀結構(Star Schema)與雪花結構 (Snowflake Schema),兩者間主要差異在於後者的維度資料表有延伸出子維度資料的多層關係,簡易表示式如下:

資料倉儲架構下的星狀與雪花結構

資料倉儲的形成與後續使用可以從以下的圖片清楚說明,首先就是藉由ETL或 ELT整合工具,將資料彙整到指定的資料倉儲。其中ETL就是擷取資料、轉換型態後才載入到資料倉儲,ELT使用擷取資料、直接載入到資料倉儲,最後進行轉換。

大規模資料倉儲流程示意圖

圖片中項次1就是代表ETL或ELT作業,本地端解決方案可以使用微軟SQL整合服務(Server Integration Service,SSIS)搭配Visual Studio的開發介面,實作控制流程與資料流程封裝,將數據載入到資料倉儲。雲端解決方案可以使用資料處理站(Azure Data Factory,ADF)的資料管線(Pipeline),搭配所提供範本在雲端完成資料ETL或ELT作業。

資料倉儲如何轉換資料成為企業有價值決策分析洞察力(Insight)?主要是藉由資料模型的建立,產生分析立方體(Cube),搭配所有維度下可能的彙總數據,去分析不同維度的交集結果。過程可以使用本地端的Visual Studio的分析服務 (SQL Server Analysis Service,SSAS),建立Tabular格式或是多維度的分析立方體。雲端方面可以藉由Azure Analysis Service建立Tabular格式的分析立方體,提供給決策者使用。

大規模資料倉儲實作四大作業

當決策者需要使用存取立方體的彙總數據,搭配不同角度進行分析,可使用前端工具從本地端的Excel樞紐分析、報表服務(SQL Server Reporting Services,SSRS) 或雲端Microsoft Power BI互動式報表,讓資訊藉由多種圖表格式呈現, Power BI提供了各式圖表、報表、儀表板、交叉分析篩選、整合WebGL呈現地圖效果。

本地端大規模資料倉儲實作元件

以下針對本地端與雲端實作出資料模型的相關解決方案,本地端的相關元件包含 SSIS(整合服務)、SSAS(分析服務)、SSRS(報表服務)、MDS(主資料服務,Master Data Services)、DQS(資料品質服務,Data Quality Services)與資料倉儲(Data Warehouse)。

雲端大規模資料倉儲實作元件

資料處理作業的四大步驟:第一步驟是來源資料擷取與處理的整合作業,第二步驟是建置分析資料儲存區合併資料倉儲與資料湖的作業、第三步驟是分析資料模型與立方體建置作業,第四步驟就是資料視覺效果呈現作業。每一個階段的注意事項條列如下。

(本文節錄自CH04課程模組4探索Azure中的資料分析中的第一小節大規模資料倉儲,其他精采內容請見「DP-900:Microsoft Azure Data Fundamentals雲端資料核心能力國際認證應考攻略」)


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!