隨著資料價值備受重視、個人資料的隱私獲得各界關注,資料治理的意識已開始抬頭,並且逐步形成一股趨勢。自2020年開始,包含金融、國營機構以及政府單位等等,均已著手進行資料治理工作,例如台北市政府於2020年底成立府級的資料管理委員會,負責規劃市府資料的蒐集、運用,以及個資保護;2021年底中國信託商業銀行以總公司等級成立數據治理委員會,由總經理親自主持,參與方包括各個業務單位主管,分階段執行不同階段性治理目標。
台電也於去年開始將資料治理相關工作列為首要任務,今年並以「數據創新與數據治理」為主題舉辦電業數據分析應用論壇,顯現各界人士對於電力相關數據之治理及分析之重視。甫於8月成立的行政院數位發展部也有對應之資料治理主責單位,多元創新司便是針對政府資料治理政策與計畫之整體規劃及推動,以及政府資料資產管理之規劃、協調及推動,負有明確之工作職掌。
另外,中華電信也在日前宣布已完成資料治理策略、組織、制度、規範與作業流程規劃,並於今年初頒布資料治理策略、成立資料治理委員會及三階層運作組織,定義資料治理制度中的角色與職能,朝向建構全公司資料資產、轉型成為數據驅動的企業邁進。
資料治理多挑戰 組織齊力方能成功
叡揚整合事業處平台服務部經理李柔觀察,金融業由於受到監管要求,因此腳步最為積極,而政府帶頭推動資料治理政策與計畫也有指標性意義。但除卻先行企業之外,目前多數企業在意識上雖理解資料治理的重要性,仍處於慎審觀察或評估的階段,原因在於資料治理並非一蹴可幾,亟需組織齊力推動方能成功。 她指出,企業落實資料治理確實會面臨不少挑戰,包含如何組織全員共識,讓員工對資料治理有清晰的願景和使命,並且瞭解資料治理計畫的必要性和好處;如何讓業務團隊共同參與協助定義和實施相關程序與工作流程,以便從資料治理工作中獲得最大的業務效益;如何克服資料孤島問題,以及資料治理實踐與資料隱私問題。
其中,資料孤島已成資料治理的重大挑戰,原因在於即使執行了資料治理框架,團隊也可能進度落後並且無法達到標準要求。實現資料治理的關鍵步驟是將資料從孤島轉移到集中管理的資料治理框架中,讓資料治理不僅僅是一個專案,而是一項持續的活動,如此才能產生文化轉變。另外,資料治理實踐和資料隱私也是亟需重視的課題,資料治理框架的好處之一是團隊之間可以獲得高品質的資料,但若管理不當,這種對資訊的普遍存取可能會導致資料隱私問題,資料治理系統也應設定適當的存取權限來隔離不同級別的資料。
治理、管理俱足 資料才能轉為資產
受到人工智慧、區塊鏈、雲端運算、大數據等技術的創新驅動,不論是新興金融科技或是工業4.0,都已開始經歷本質上之質變。企業可能從產品服務、營業模式、組織文化等面向擬定相關轉型策略,但這些轉型策略都需要資料治理技術來支撐才得以實現。倘若沒有資料策略、健全的資料治理組織、可長久推動的資料治理制度與流程,以及相關之資料管理技術平台支援,這些轉型策略很可能流於形式。
李柔認為,資料治理與資料管理這兩個詞彙的意涵並不相同。資料治理係指有效獲取、管理、利用資料相關的一組實踐方法、策略、角色,其目的是確保資料在組織內提供盡可能多元的價值,例如在整個組織中確認企業資料的品質和安全性,決定誰可以使用什麼資料以及何時使用。而資料管理則較偏重於資料的管理技術,像是數據品質管理、元數據管理、數據標準管理、數據安全管理等等,都是其中一環。然而,這兩者必須共同具備,企業的資料才能真正有效運用,讓資料轉為資產。
以金融場景為例,倘若金融業希望透過資料掌握每一個客戶的生命週期,那麼就需要對客戶全方位的資料進行通盤瞭解,而且必須拿到最真實正確的資料。過往由於資料是在不同時間、不同場景下取得,資料與實際的真實性有所落差,例如明明已婚但卻顯示此人未婚或是地址出錯的情況,導致這些資料即使拿來分析也無法使用,透過資料治理將有助於改善資料的品質,確保資料可用,進而實現資料共享。
而實際執行面上,首要就是從元數據(Metadata)管理著手,企業必須知道資料被存放於何處、欄位與性質為何,也就是標準的建立。她解釋,身分證字號或信用卡號都有一定的設計標準,例如身分證字號就應該是一個大寫的英文字母及九個符合算式的數字所組成,而這些標準就是應該依循的規則,當這些資料取得時,理論上就要依照身分證字號或信用卡號的規則去存放,「但是也有一些較難統一管理的資料,例如職業別。證券、人壽以及銀行對於職業別的區分以及認定可能不盡相同,從而導致資料不一致的情況。這時就得與相關的業務單位進行討論,把標準制定下來。」另外,資料品質管理也相當重要,唯有足夠且品質好的資料才能被進一步分析。
「同時,企業也需要成立一個專責單位,」她提到,需要資料治理的企業,往往組織架構與系統也相對複雜,專責單位有助於確認資料治理的權責、制度、流程與規劃,例如當業務定義要修正時,由誰同意、哪些單位需要進行協調,也需要有資料保管單位來確定資料品質,當然IT單位也要參與,萬一資料發生問題,IT部門便需要往前追溯問題發生的可能原因。瞭解資料的血緣關係,便可以很輕鬆地追溯到資料源頭,「資料血緣的重要性在於,資料在生命週期中可能會流經多個系統而且可能被轉換,所以從來源、轉換乃至於最後產出的報告,整個流程都必須能串接起來,過往這是IT部門非常頭疼的問題,但正確工具便可以輕鬆做到。」
資料血緣輕鬆追溯源頭
累積多年平台開發整合經驗,叡揚資訊也已協助多家大型企業落地Data Gateway資料治理與運用平台,提供資料管理生命週期各階段對應所需之管理功能,包括元數據管理、資料品質管理、使用者資料自助擷取、資料安全、資料使用相關稽核紀錄等,將資料治理及運用之需求統一實現。此平台同時也整合ASG數據管理智能平台(ASG Data Intelligence Platform),該平台主要的功能包含了元數據盤點及解析功能、數據血緣分析展示、數據血緣快照、問題追蹤審核等,專注於元數據收集、分析、彙整,提供數據血緣圖表達數據之間的關聯性,並可透過Web瀏覽器畫面呈現數據品質、版本差異及商業用語等相關功能,協助企業更能掌握資料,助益大數據分析發展。
其中,資料標準模組包含政策與標準、商業詞彙與業務術語等維護設定功能;而資料品質管理則可配合資料標準作業完成之業務檢視與資料規則建議,落實資料品質管理規則作業,其內建20種常見品質檢核規則,並可協助使用者運用Python自行客製化新的規則匯入到平台之中,成為專屬特定業務之品質規則。 元數據管理為平台最基礎及最重要之管理功能,可經過設定後達成蒐集多種元數據資訊之目的,多種來源可以資料庫、檔案、報表、ETL工具等形式進行自動掃描,免除人工持續修正及比對之管理負擔,還能整合技術元數據、管理元數據及業務元數據並提供檢視或查詢機制,提供元數據版本控管資訊與不同版本差異比對資訊、結合遮罩及加密機制設定保護抽樣資料之安全。
而在資料血緣分析方面,ASG數據管理智能平台的數據血緣模組,可以自動化或手工縫合方式,建立數據、數據庫與SQL語言間之血緣關係,數據血緣模組能協助將系統裡眾多程式相互呼叫之關係,以及與資料庫表之關聯性建立完整相依圖,幫助使用者進行資料流轉換追溯及變更衝擊分析工作。另外,也可透過瀏覽器追溯從報表到系統資料來源間相關轉換邏輯及對應關係,讓使用者能從單一視覺化介面,了解相關資訊,有利使用者快速掌握系統的實作內容。
從痛點著手有利專案實現
面對不斷擴增的資料,企業需要一套能讓資料創造價值的資料治理制度與方法。李柔指出,一般通用的準則是先建立明確的資料管理流程及組織的監督與管理制度,並確認此制度能持續落實運作;而後設定健全統一、概括企業重要業務資料之資料標準,並能讓IT及業務單位都能共同遵循及維護變更;再建置能持續監控改善之資料品質檢測及回報機制,讓資料品質能以量化方式長期監控;以實現當資料能被更多所需單位獲取時,能以安全之形式共享資料,創造資料資產能發揮最大價值之環境。
「但是實務上,建議企業可從數位轉型策略的不同面向,例如產品與服務、組織與文化、營運模式等等先進行討論,企業需要先思考如何以資料治理解決實務上面臨的商業分析及維運問題,從這兩大方向來盤點與梳理資料,包含哪些是應特別珍視管理並能為企業建立價值之資料,而哪些又是一旦遺失或出錯將造成企業極大損失等等。」她提到,從痛點著手,高階主管的接受度就會比較高,其實多數金融現今的痛點是明明找來了一流的資料科學家,但卻發現居然沒有好的資料可以運用,以致於建模的效用不高,倘若能藉由資料治理平台把品質提升,將有助於金融科技(FinTech)的運用。