為協助企業建構「資料優先」的數位化應用場域,HPE Ezmeral混合雲平台整合了歷次收購取得的BlueData資料分析技術、MapR資料融合平台、超級電腦(HPC)製造商Cray、運用開源機器學習堆疊的新創公司Determined AI之技術,讓HPE Ezmeral Data Fabric成為跨團隊協作的資料管理、建模與分析平台。
HPE慧與科技技術規劃處副總經理范欽輝指出,開源陣營技術已成為現代企業搭建數位化營運環境的主流,讓企業可採以不同的技術堆疊方法,建構特有的應用場景。HPE近年來收購取得的技術,皆是基於開源陣營技術的創新工具。
另一方面,企業選用的工具項目多樣化,且可緊密地跟進技術發展趨勢,例如Hadoop生態系已逐漸演進到近兩年更受關注的Spark,儘管為異質環境但資料結構彼此可相容,企業IT亦可在不影響資料生命週期管理的狀況下隨之演進。
工具輔助降低新技術學習門檻
在近幾年協助許多客戶朝向資料導向型企業發展的過程中,HPE數位科技服務事業處業務開發經理吳思為觀察,資料量成長速度超過預期可說是最大挑戰。他引述IDC調查報告指出,當前企業內部90%的資料量產生於最近兩年,其中非結構化資料占比則高達80%,導致資料儲存方式面臨空前挑戰。對企業而言,最急迫的莫過於建構可彈性擴充的儲存環境。
其次是前述提及的非結構化資料,在人工智慧應用尚未普及之前根本不會被保留,例如影像、圖片等相當耗用儲存成本的檔案,隨著人工智慧應用興起才出現保存與利用價值。
第三個觀察是企業普遍面臨眾多應用系統各自為政的窘境,彼此之間亦欠缺互通性,資料孤島(Data Silos)問題始終無法徹底解決,再加上企業在數位化發展過程中陸續採用雲端服務、邊緣運算,使得資料存放位置更加分散,資料需求者取用的流程也變得更加複雜。
吳思為認為最關鍵的問題是新型態分析與人工智慧應用人力稀缺,輔助工具得更進一步降低學習門檻,補強技能落差。范欽輝亦指出,資料科學家勢必須具備更多知識與技術,才有能力達到預期目的。當演算模型普遍可用於解決各式問題時,人才明顯供不應求,知識或可勤學補足,實際經驗卻得花時間累積,因此若能運用AutoML與MLOps建立自動化流程,將有助於弭平缺口。
AutoML與MLOps建立自動化流程
MLOps概念類似於現代化開發團隊的DevOps,但職責與思維大不相同。吳思為說明,軟體開發通常是計畫性,依照專案管理者指示撰寫功能。機器學習為實驗性,定義目標後須運用各種演算法嘗試實踐。
對於機器學習演算法開發者而言,開發為線性的流程,假設資料已經準備完成,會先執行探索式資料分析(EDA),找到彼此之間的關聯性,並且執行前處理或特徵工程,讓模型得以有效率地辨識。接下來進入訓練階段,選用演算法建構模型,過程中會經過調校提高預測精準度,最後部署上線運行。AutoML特性是無須撰寫程式,備妥來源資料運用AutoML服務即可產生模型,用以提升概念驗證階段的效率。
前述的概念驗證流程,只要準確度達到目標即可採用。上線營運的目標則不同,須確保模型維持高效能運算以達到準確度。擷取訓練模型的資料,隨著時間不同經常會遭遇到預測變數的統計屬性發生變化,又稱為資料飄移(Data Drift),例如人流預測模型,經過疫情大流行過後,可能完全不同,此時MLOps建立自動化流程即可發揮效益,透過持續監看模型準確度,隨時檢查模型的表現數據,並自動餵入新的資料重新訓練、調整準確度。
「HPE Ezmeral提供MLOps特性是可重複被納入新的工作流程,把準備資料、預先處理程序、特徵工程、訓練模型,轉換為功能模組,團隊可用於其他概念驗證專案,其他部門有相近的應用亦可稍加調整修改,讓資料科學家得以有更多時間投入模型開發。」吳思為說。
HPE慧與科技技術規劃處資訊系統顧問何育誠指出,HPE Ezmeral MLOps主要包含四大功能,第一,MLOps運行前須運用HPE Ezmeral Runtime(前稱為HPE Ezmeral容器平台)建構可運行環境。第二,版本控管(Source Control),過去的作法是每個研發單位可能有各自的裸機、虛擬主機、容器叢集環境獨立運行程式碼,如今可藉由統一平台開發與執行控管版本。第三為監控,模型推論(Inference)階段會採用相同Runtime,運行完成後須持續監控。第四,當演算模型的效能下降,可觸發自動執行重新訓練。
Data Fabric建構現代化資料平台
企業專注的商業價值是藉由資料分析所產生,而蒐集與保存各式管道來源的原始資料,經過清洗、正規化、儲存來提高品質,供資料科學家用於訓練預測模型,即為HPE Ezmeral Data Fabric資料平台的要務。何育誠說明,HPE Ezmeral Data Fabric整合收購的BlueData、MapR等技術,逐漸讓產品組合更完整。
他指出,現代化資料平台須具備的特點,首要是隨著資料量成長彈性擴展,支援新型態的應用,並且符合安全性規範。其次是維持高效能、高可用性。第三點是具備資料清洗、ETL預先處理能力。第四是讓分散存放的資料,採以統一方法取用,讓訓練完成的演算模型,可直接部署到邊緣環境執行推論。
何育誠說明,HPE Ezmeral解決方案提供的Data Fabric由五大組成元件,分別是檔案與物件存放區、NoSQL資料庫、即時資料串流(Streaming)、支援雲端的S3落地到地端,以及提供ETL工具,可支援Hadoop、Spark等主流的大數據系統,協助DataOps執行工作任務。
目前AWS S3通訊協定使用量最多,幾乎成為物件儲存資料傳輸的業界標準,地端開源陣營系統大多運用S3通訊協定實作,Data Fabric亦納入支援,讓資料採以AWS S3運算能力來訓練模型,即便地端應用系統產生的資料無法拋送到雲端平台,同樣可用透過S3通訊協定以訓練演算模型。此外,若持續地把資料遷移到S3,相對地,儲存成本也會往上疊加,在地端建立S3儲存環境,亦可降低公有雲的成本開支。