根據IDC統計數字估算,從2010年到2020年,全球創建、捕獲、複製和使用的資料量已增長超過50倍。這些富含著無窮潛力的資料,不論是在優化營運、加速決策制定或是推動更好的業務成果上,都扮演著非常關鍵的角色,也是企業數位轉型過程中的重要基石。
然而隨著企業資料量高速成長,資料治理的需求也開始浮現。近幾年,各產業紛紛展開資料治理計畫,不管是金融業、電信業或是製造業都已開始著手相關計畫與推展,英業達近期也宣布藉由IBM諮詢服務導入微軟Azure Purview,落實資料治理並加速推動AI應用。
台灣IBM諮詢首席資料科學家謝明志觀察,不少企業把資料管理或資料庫管理當成是資料治理。其實,資料治理與資料管理並不相同,所謂的資料治理,指的是如何運用一些準則、規章、組織、流程、辦法以及技術手段的建立,來確保資料的可用性、品質與安全性。這些治理的工作包含了決定資料的功能、業務定義、技術規格,以及當相同的業務定義資料內容發生不一致時,該如何判斷應以從何產出的資料為主,此外也包含如何透過事前檢查、事中監控、事後改善的手法來確保資料品質。
除了這些建章立制的方法之外,資料治理也涵蓋資料的收、傳、算、用,也會涉及資料從創建、使用、歸檔到銷毀的生命週期管理,以及如何透過資料的分級,在資料生命週期各個不同的階段採取保護的措施,讓權限正確的人可以讀取資料。相對地,資料管理則著重於管理資料本身的內容,其中便包含了許多技術手段,例如如何存取與處理資料、如何做到安全控管以及有效率的儲存與備份。簡而言之,資料治理談的是資料本身的定義、管理以及流程、權責、組織、規章,而資料管理談的是管理資料本身的內容,以及處理機制。
謝明志指出,台灣金融業在2010年前後,不論公股或民營銀行幾乎都已著手資料治理,只是當時的資料治理比較像是資料管理,雖然對資料治理很早就有認知,但主要偏向技術手段。近期,則是受到數位轉型與監管報送的要求,才以業務角度為起點確認資料定義,資料治理的意識開始被落實。
這個再度被關注的時間點其實是從2020年開始,「業務場景快速擴充以及來自於監管機關的要求,是最主要驅動的兩大動機。」他解釋,不論是新平台或是基於商業合作需要擴展生態圈,如果資料治理做得不夠札實,在擴充的過程中就會卡關在資料上。而來自於監管機關及客戶的壓力也會驅使企業有此需求,舉例而言,相信不少人遇過明明已經打電話到銀行改過信用卡聯絡地址,但是理財部門卻還不清楚地址已經更改的情況,這對消費者而言是無法接受的。諸如此類的壓力也會讓企業正視此課題。
資料定義不一致最有感
資料治理也攸關企業數位轉型成敗。英業達在推動數位轉型過程中便發現,許多資料散落在各個系統或電腦中,需要運用時不知道要去何處取得資料,就算知道也有取得的困難,包括應用權限以及資料可靠度等問題,大大拉長了數據決策與AI應用的開發時間。不只如此,資料定義不一致,還可能會造成預測模型的偏差、跨組織管理應用的困難,進而影響到決策的品質與準確度。
台灣IBM諮詢資料與科技轉型資深顧問顏慧貞觀察,製造業主要面臨的是跨廠區的治理挑戰,例如海外生產製造廠房為了維持營運,會有許多跨系統的資料或獨立運行的系統,這些系統與總部系統可能全然不同。在此情況下便容易出現資料定義不清晰或定義不同調的情況,例如總公司與海外廠房對資料定義的描述不同,或是遇到少量多樣的客戶型別時,不同客戶對良率或達交率都有不同的定義與要求,在跨廠區或跨組織之間,資料本身就很容易定義不一致。
當資料愈來愈多,跨單位之間進行資料交換或合併計算時,同義不同名或是同名不同義的情況也經常出現,舉例而言,財務單位對「營收」解讀可能是每一季度的出貨量乘以客戶的報價,但廠區對「營收」的解讀可能是離廠的出貨量乘以成本。如果高階主管想要瞭解營收表現,該以誰為主?「資料定義的不清晰或是定義的不同調是製造業面臨到的較大挑戰,」她提到,其他還包含資料分散、管理者的定義不明確以及無法確認有哪些高價值的資料資產可以被應用,也是製造業常見的困擾。 不只製造業,金融業在跨業務流程方面也常遇到資料治理挑戰。謝明志補充,許多銀行的外匯、信用卡或是存放款系統都是基於當時的時空背景被建置起來,導致一樣的資料在不同的系統中出現定義不一致的情況,當金管機關對不同行業有多少企業戶、放款餘額是多少等呈報內容有疑義,想要進行討論追蹤時,銀行卻發現這些計算的邏輯並不一致,而產生治理以及與主管機關溝通的問題。「金融業最大的問題是不同的部門、流程與系統之間並沒有統一的定義、計算邏輯以及數據標準,光是這一點,許多金融業都很有感。」
八技術手段實踐資料治理
為了協助企業落實資料治理,IBM設計一套資料治理的方法論與框架,內含了八個技術手段以及四項讓技術手段穩定落地的方法。這些技術手段包含數據標準、元數據管理、主數據管理、數據品質、數據架構、數據模型、數據安全以及數據生命週期。而四項保障機制則包含了政策、組織、流程以及技術。
其中,數據標準指的是資料在業務流程上的業務邏輯以及定義為何;元數據管理指的是,有了定義後,資料落地到系統或資料庫時,其技術規格與檢核的邏輯;而主數據管理應對的是當同樣定義但是不同系統產生出的數據有差異時,該以誰為準的情況。數據架構、數據模型以及數據安全、數據生命週期談的是實務上資料在落地運行時,如何運用不同的技術來處理資料,例如文件檔案如何處理、半結構化資料如何處理,以及儲存在哪些儲存設備較為合適。
這些技術手段都需要制定整個運作的政策,也需要有相對應的人與流程,舉例而言,如果要修改資料標準,哪個單位可以提出、哪個單位可以審批,又是由哪個單位把定義記錄下來,這些都需要經過討論,甚至藉由一個技術平台、自動化的平台,讓資料治理的內容可以紮實的落地。
謝明志進一步說明,這些方法論與框架最終必須落地到企業日常營運中,這時就會與企業討論場景循環,讓企業依據營運把不同的場景打開,裡面的資料都會套用到八個技術手段以及四個落地的保障機制,把資料整理乾淨後再放到自動化平台,如此一來,場景中的每個資料就不會發生同名不同義或同義不同名的狀況,資料具有完整性與一致性,品質也可以有所確保。
內化成企業DNA 轉型齒輪方能推動
顯然,資料治理並非導入一項工具或方案便可以完成的工作,從資料標準定義、品質管理,資料架構包含安全性與合規等等都包含在內,這也是為何資料治理必須有一套方法論來對應的原因。
顏慧貞指出,資料治理通常會以場景循環的方式逐步地落實,作法上會先定出場景,並且規劃1.5年到2年的迭代,把整個企業裡面不同的業務或是不同的流程,以三個月或四個月為基準的方式做迭代盤點,好處是可以解決大範圍落地造成的人力問題,並且更容易聚焦。「所以第一步會先討論場景,針對比較重要或對資料有疑慮的場景先盤點出來。」
接下來便是讓該場景所涉及到的資料、系統以及相關的組織單位共同參與,因此第二步就要邀請相關的業務單位與業務系統的管理者參與,共同盤點資料並確保在場景的資料能夠被取用以及其定義與規則。
第三步則是在這些系統或資料的所有權單位中,堆疊出資料治理組織,以因應未來資料需要被修改或定義時,可以確保資料的一致性與正確性。「資料治理的組織應該要有三層式架構,最上層是決策小組,中間層則包含了流程負責人、業務單位以及技術單位的擁有者,第三層則是負責的執行人員,因此過程中也要找出可執行的同仁一同參與。」她說。
緊接著才是確保資料的品質,包含客戶的名稱要寫中文還是英文、廠區會不會有額外的名字等等,如此資料的品質才能完整,才不會在不同系統串接過程中出錯。最後才是建置一個完整的資料平台,例如資料中台架構,以便讓使用者得以查詢到資料。
她觀察,這幾年製造業積極數位轉型,一半以上的製造業都已認知到資料治理,也認為應該要落實,但如何治理卻是各自理解,例如有些企業會把資料集中,打造一個資料平台以提供給使用者取用,但這其實比較像是資料管理而非釐清資料的定義,有些企業則會規劃數位轉型議題,並且先建構視覺化的儀表板,認為所謂的資料治理就是把資料定義好並且讓高階主管看到結果,實際上這些思維都偏向應用面。「企業應該回到資料治理的本質,治理涉及組織管理變革、業務與技術單位的合作,甚至未來會有很多流程與審核的機制,因此應該先從這幾個面向打底,才能把資料治理的本質建立起來,這也是企業比較容易忽略的地方。」
顏慧貞強調,許多企業早在兩三年前就開始轉型,但是過程中卻發現資料不一致、取用分散,或是資料的擁有者、授權、安全性,都沒有很清楚地定義與管理,致使規劃與執行的進度被拖慢。「經過這一兩年的推廣,企業越來越了解,資料在被應用的前提之前,應該要讓資料治理更落地,資料治理並不是單次的改善或單次口號,而是要讓企業每位員工都認為資料治理是企業的DNA,如此才有辦法推動數位轉型的齒輪。」