產業數位化應用推動混合雲/多雲、人工智慧(AI)、物聯網與邊緣運算逐漸成為主流運行架構,產生的資料數量呈現指數成長,使得資料管理與治理複雜度變高,IBM Cloud Pak for Data雲原生平台建立的Data Fabric架構,協助企業在不搬移資料的前提下實作控管與蒐集分析,正可發揮效益,基於多雲資料存取與整合(AutoSQL)、智慧型知識型錄(AutoCatalog)、通用的資料隱私與安全(AutoPrivacy)、簡化AI開發(AutoAI)四大功能,讓異質環境的資料相互串連,確保資料隱私與安全性,更重要的是讓各種職能的資料需求者可運用資料分析建模,增進洞察力創造商業價值。
台灣IBM客戶成功副總經理胡育銘指出,根據IBM定義,Data Fabric架構為人工智慧與自動化的實踐,讓各種管道的資料建立端到端連接。實作的技術之一為資料虛擬化,較傳統ETL(擷取、轉換、載入)工具的不同,主要是整合Metadata(中繼資料)建構的虛擬層,讓既有應用系統後端的資料庫、資料倉儲、資料湖(Data Lake)、大數據平台等,皆得以由虛擬層取用,無須改變檔案存放的位置。
實現資料民主化目標
從資料處理技術演進來看,過去建立資料系統提升維運效率、資料倉儲與商業智慧(BI)分析已奠定基礎,隨著資料量成長,運用開源技術框架實現的資料湖,以統一儲存結構、非結構與半結構化檔案,有助於建立機器學習模型來解答各式問題。如今的資料目錄(Data Catalog)機制已可藉由Metadata檢索存放於資料湖的資產,搭配商業智慧工具整合人工智慧應用,可讓更多第一線員工,依據職務需求自行產製分析報表來解決問題,藉此實現資料民主化的目標。
胡育銘觀察,國際調研機構Gartner自2018年提出Data Fabric架構,實際上與IBM Cloud Pak for Data技術發展理念不謀而合。他說明,Gartner定義Data Fabric的設計是種彈性的資料管理,強調使用資料管道、服務和語意,可以跨多個資料區域,進而利用Metadata、知識圖譜、語意、機器學習來強化整合。
Data Fabric架構方法論包含六個層次,第一是管理層,負責治理與確保安全性;第二是擷取層,多管道的資料來源得以介接串連;第三是處理層,讓需求者可取得有意義的資料;第四是編排層,運用ETL工具或設定Mapping方式,讓資料保留在原地,執行轉換、整合與清理。第五是探索層,透過資料虛擬化技術,無須搬移資料即可找到,例如業務人員在操作介面上輸入「成本」的關鍵字,即可列出儲存在各個不同儲存媒體或雲端平台上的相關資料表。第六是存取層,確保存取資料者擁有正確的權限,符合當地法規規範。
他認為,Gartner定義的知識圖譜,等同於IBM設計的資料目錄,亦即將業務性術語與技術性Metadata內容相互關聯。前述舉例以「成本」為關鍵字執行搜尋,透過關聯性探索相關資料,包含資料庫欄位、非結構化檔案,相互串連自動繪製成圖。此技術可說是自助服務得以發揮效益的主要因素,讓第一線員工無須學習IT技術即可找到想要的資料。
五個使用Data Fabric 架構的角色
就目前來看,需要用到Data Fabric架構的角色,胡育銘說明,首先是系統維運者,須確定運行效能與穩定度。其次是商業分析團隊,也就是第一線員工,只要輸入關鍵字,即可取得資料。第三是資料科學家,運用系統平台建議的模型,取用原始資料執行訓練。第四是資料管家,負責描述與分類不同格式資料,較偏重由IT人員擔任。第五是資料治理、分析控管團隊,須同時懂Metadata與營運業務模式。
「IBM顧問團隊大多時間投入在資料治理,協助企業建立如同圖書館的目錄系統,必須懂得商業領域慣用的術語、IT技術等跨領域知識,為後續應用奠定基礎。」胡育銘說。
IBM Cloud Pak for Data正可提供前述五種角色在單一平台操作執行。從最終使用者的角度,解構(De-compose)使用資料、建構、編排應用的流程,擁有資料的使用者(個人/團隊)發布原始檔案,可在資料目錄分享、宣傳、通知,讓其他人取用。方式是在資料儲存庫(Data Repository)執行註冊,胡育銘舉例,底層的資料湖,被視為資料目錄中描述的單一有組織的資料集合,可讓使用者發掘、探索。若資訊擁有者未開放直接存取資料,亦可透過副本機制取用。一旦開通了資料使用權,則可探索資料沙盒(Sandbox)中的資訊並建構商業洞察力,無須再開立需求單、等待IT準備環境才得以執行,藉此可大幅縮短時程。
資料科學家運用IBM Cloud Pak for Data建構完成具有商業用途的分析模型,則可以將其部署到系統,以便定期提供商業洞察相關數據。例如產生客戶分群、使用者流失、貢獻度等數據,讓最終使用者有效率地提取資料,把時間專注在可產生商業價值的分析。
AutoAI加速醫學研究進展
IBM Cloud Pak for Data雲原生平台初期設計的理念,目的是讓DataOps藉由單一平台、基於相同語言溝通,提升協同工作的效益。胡育銘指出,實際上,整合到單一平台並非容易的事,IBM旗下擁有超過十種異質專業領域的技術,2019年全數轉化成為微服務架構,整合在IBM Cloud Pak for Data底層由Red Hat Openshift建構的Kubernetes環境。企業導入部署時,依序安裝Openshift、Cloud Pak for Data,即可啟動需要採用的服務,例如商業智慧、ETL、人工智慧等應用。
以實際應用案例來看,IBM近期發布台北榮總已在糖尿病、腎臟病、心臟病、耳科疾病等多項醫學研究中使用IBM Cloud Pak for Data內建的AutoAI功能來簡化AI開發。胡育銘說明,過去研究病理分析、疾病預防,須由助理先行蒐集大數據、選用模型,光是資料處理、資料分析,至少得花費三個月以上時間,藉由AutoAI輔助,大幅縮短為一到兩週內即可完成。
台北榮總資訊室朱原嘉博士指出,在資料蒐集、模型開發測試及驗證預測模型三階段運用AutoAI,可輔助研究者辨識重要數據的特徵、縮短資料清洗與資料萃取的時間。透過低程式碼(Low-Code)或無程式碼(No-Code)的AutoAI功能,讓機器學習自行建立並訓練多樣化模型、找出冠軍模型,節省可行性分析與嘗試錯誤的時間。並可自動生成Python程式,幫助研究者持續優化模型與重現研究結果,加速醫學研究進展。