隨著人工智慧/機器學習(AI/ML)日漸普及,IT市場上開始出現資料驅動的應用程式(Data-Driven Application),幫助資料科學家、演算模型開發工程師等角色協同合作,讓資料展現更多價值。為協助企業解決資料處理的難題,讓第一線員工也可操作運用資料分析,Google Cloud持續發展雲端服務,提供BigLake實作整合資料倉儲與資料湖、統一商業智慧(BI)平台,以及Vertex AI平台讓資料科學家、IT人員、開發人員等領域專家,得以協同合作執行MLOps程序。
Google Cloud台灣技術副總林書平指出,眾所周知,Google專注於建構服務,用以協助簡化「資料轉換成價值」的操作,Google Cloud生態系匯集廣告、影音、雲端服務等異質領域,研發團隊更是具備資料工程、資料科學、資料分析等新興技術人才,把困難的技術轉化為直覺易懂的介面,讓第一線員工靈活運用,實現資料驅動創新。
資料量成長倍增推動技術再進化
林書平從近兩年實際接觸客戶的經驗中發現,台灣企業在資料驅動的創新方面,普遍面臨三大挑戰,首先是過去幾十年來,資料量體成長飛快,且不同來源的異質型態或格式檔案,批次處理已無法滿足應用場景需求,須做到即時拋轉以便運行分析。此外,資料儲存位置已不限於自家資料中心,更多資料產生自分散於不同地區的雲端運算環境,企業IT難以沿用熟悉的方式彙整與管理資料。
其次是不同角色使用者與資料互動、處理的模式迥異。Google開源的TensorFlow機器學習框架與近來相當熱門的PyTorch深度學習框架,牽涉到不同程式語言,例如資料科學家慣用SQL語法運行查詢與分析,但在資料工程的工作流程中,卻更偏好建置在Apache Spark環境,以Java、C#程式語言開發。
第三個挑戰是處理資料的方法,例如物聯網應用模式的個人健康檢測,蒐集心跳、血壓、血氧等串流資料,每秒產生的資料量過大,不適合儲存到資料倉儲,通常得在當下先進行評估,判斷是否為重要的即時資料才決定儲存。
「為了協助解決前述的挑戰,Google Cloud對生態系進行整合,範疇涵蓋關聯式與非關聯式資料庫、針對資料流執行ETL、進入資料倉儲(BigQuery)等,底層則基於Data Fabric建構資料統一治理、建立模型的服務,讓前端用戶可依據需求開發應用,例如採用Vertex AI簡化人工智慧演算模型開發程序,或是運用商業智慧工具,以視覺化呈現分析數據。」林書平說。
BigLake建構「湖倉一體」環境
日前Google Cloud最新發布BigLake,發展理念是提供「湖倉一體」服務,用以降低管理的複雜度。BigLake基於BigQuery設計儲存引擎,可直接套用資料表、資料列、資料欄層級的安全性政策。以往相同的資料須搬移到異質技術環境才可應用,通常得由人力操作執行,BigLake即可省去搬移程序。
林書平說明,從整體架構來看,BigLake是運用API建構儲存層,增進存取控管安全等級。不論運行的是Spark、Presto、TensorFlow等查詢資料機制,藉由BigQuery Access扮演中介API,可讓異質系統採以統一方式執行呼叫。
BigLake底層的儲存環境結合各種類型非結構化檔案、分析完成的Metadata,同時包括BigQuery特有的Capacitor格式,抑或是檔案存放在Google Cloud Storage、AWS S3、Azure Data Lake等公有雲物件儲存環境,皆可透過BigLake API,負責資料讀取、寫入的轉譯,經過開源陣營Dataproc OSS Connector等連接器跨平台溝通。
舉例,資料若存放在AWS S3,運行在AWS平台的BigQuery Omni透過BigLake Connector溝通,可同時分析資料存放在Google Cloud Storage或S3。對於分析系統的執行程序來說,都是對應到相同的SQL陳述式,由API來轉接異質平台的讀取、寫入等動作,讓異質格式的檔案予以整合,產生統一的結果。
除了前述推出BigLake目的是讓使用者更容易地儲存、取用、分析各式的資料,Google也正式發布Live Migration,幫助從Apache HBase遷移到Cloud Bigtable,讓企業既有地端的資料遷移到雲端。Schema Translation Tool協助在Bigtable新增並即時地同步資料,透過無伺服器雲端原生實作異動資料擷取(Change Data Capture)來實踐,藉此可讓資料庫無須停機完成遷移,可達到HBase資料異動發生時,即時擷取到Cloud Bigtable。
「對於企業IT而言資料遷移茲事體大,過程中往往不希望停機。即使是資料量相當龐大,亦可透過Live Migration提供的Replication機制讓HBase與Cloud Bigtable保持同步;或者是運用快照工具,把副本匯入Cloud Bigtable同樣可行。」林書平說。
Vertex AI平台實作MLOps程序
資料工程完成後,下一步是讓各種角色的員工可取用,產製儀表板或報表來監控數據。Google Cloud日前發布統一商業智慧平台,整合Google Sheets與Looker兩大元素,讓員工可採以熟悉的Google Sheets操作介面,運用分析數據來輔助決策。
此外,Looker亦整合了Data Studio,意味著第一線員工無須撰寫程式語言,即可自行透過拖拉方式建立報表或儀表板。林書平指出,當前這類自助服務式商業智慧分析的挑戰,通常是缺少資料治理的標準,例如某團隊依據專案任務在報表呈現上定義的欄位,對於另一個團隊代表的意義可能不盡相同,若欠缺標準化的資料治理模型管理,自主服務產生的商業智慧報表恐無法精準判讀。此時,Looker除了本身具備可視化工具以外,更關鍵的是可先行協助制定基礎的資料治理模型,讓不同團隊拖拉自創報表時,能以標準欄位名稱取得資料。
針對資料科學家、IT人員、開發人員等技術專家,Google Cloud提供Vertex AI機器學習平台,協同合作執行MLOps程序。林書平說明,機器學習演算模型的旅程,從執行資料預處理與探索、新增資料集(Dataset)、訓練模型、評估、版本比較與調校,持續地循環直到確定為最佳版本,開始部署到線上應用環境發揮價值。上述整個過程即為MLOps程序,不僅開發人員須協同IT人員組成DevOps團隊,機器學習模型的開發與後續維運,也得協同IT人員組成MLOps團隊,借助Vertex AI Workbench整合不同資料服務,統一操作介面亦可支援SQL語法執行查詢。
在MLOps過程中的評估階段,須透過調校參數來確認最佳配置,每個參數都會產生新的模型,得具備版本控管以免誤配置。Vertex AI Model Registry即可協助組織控管不同模型版本,以及各自對應的Metadata與調整的參數,同時可在機器學習模型上線後,監控準確度、效能狀態等指標。